اگرچه طی ماههای اخیر بیشتر خبرها به رقابت سنگین گوگل و مایکروسافت در حوزهی چتباتهای هوش مصنوعی پرداختهاند اما این بخش تنها کاربرد یادگیری ماشین و مدلهای زبانی نیست. شنیدهها حاکی از آن است که گوگل درحالحاضر روی بیش از ۲۰ محصول مبتنیبر هوش مصنوعی کار میکند و قصد دارد مدل زبانی جدیدی را برای درک بیش از ۱۰۰۰ زبان مختلف سرتاسر جهان توسعه دهد. این شرکت اخیراً جزئیات بیشتری درمورد پروژهی مذکور منتشر کرده است و از آن بهعنوان اولین گام مهم در تحقق اهداف خود یاد میکند.
غول جستوجوی اینترنت در نوامبر گذشته برنامههای خود را برای ساخت مدل زبانیای که ۱۰۰۰ زبان گفتاری در جهان پشتیبانی میکند و همچنین مدل USM، به اشتراک گذاشت. گوگل USM را بهعنوان خانوادهای از مدلهای سخنرانی پیشرفته توصیف میکند و آن را براساس دو میلیارد پارامتر، ۱۲ میلیون ساعت گفتار و ۲۸ میلیارد جمله به بیش از ۳۰۰ زبان آموزش داده است.
USM که یوتیوب قبلاً از آن برای تولید زیرنویس استفاده کرده است از قابلیت تشخیص گفتار خودکار (ASR) پشتیبانی میکند. این ویژگی زبانهای مختلفی مثل انگلیسی، ماندراین، آماریک، سبوانو، آسام و موارد دیگر را بهطور خودکار تشخیص داده و به زبانهای دیگر ترجمه میکند.
گوگل میگوید USM درحالحاضر از بیش از ۱۰۰ زبان پشتیبانی میکند و بهعنوان زیربنایی برای ساختن سیستمهای گستردهتر مورد استفاده قرار گرفته است. متا روی ابزار ترجمهی متن شبیه مدل هوش مصنوعی گوگل کار میکند که البته هنوز در مراحل اولیهی توسعه قرار دارد. شما میتوانید اطلاعات بیشتر درمورد USM و نحوهی عملکرد آن را در اسناد رسمی این پروژه مطالعه کنید.
ورج مینویسد یکی از کاربردهای فناوری USM، عینکهای واقعیت افزودهای مثل مدل مفهومی نمایش دادهشده در رویداد I/O ۲۰۲۲ گوگل است؛ محصولی که میتواند گفتار را بهطور زنده تشخیص داده و ترجمهی آن را بهطور همزمان جلوی چشم کاربر نمایش دهد. بههرحال فناوری مذکور فعلاً کمی دور از ذهن بهنظر میرسد و ترجمهی نادرست از زبان عربی در نسخهی پیشنمایش گوگل، ثابت میکند که در این تکنولوژی چقدر اشتباه پیش میآید.