محققان مایکروسافت مدل هوش مصنوعی چندوجهی جدیدی بهنام Kosmos-1 معرفی کردهاند که طبق گزارشها میتواند محتوای تصاویر را تجزیهوتحلیل و معماهای تصویری را حل کند. این مدل همچنین متن موجود در تصاویر را تشخیص و آزمونهای بصری هوشی را انجام میدهد. از دیگر قابلیتهای مدل هوش مصنوعی جدید غول فناوری اهل ردموند میتوان به درک دستورالعملهای زبان طبیعی اشاره کرد. محققان میگویند هوش مصنوعی چندوجهی که حالتهای مختلف ورودی مثل متن، صوت، تصویر و ویدیو را ادغام میکند، گام بسیار مهمی برای ساخت هوش عمومی مصنوعی (AGI) با قابلیت انجام وظایف عمومی درسطح انسان است.
محققان در مقالهی آکادمیک خود با عنوان «زبان همهی آن چیزی نیست که نیاز دارید: همسو کردن ادراک با مدلهای زبانی طبیعی»، به بخش اساسی هوش مصنوعی، نیاز به هوش مصنوعی چندوجهی برای دستیابی به هوش عمومی مصنوعی از نظر کسب دانش و زمینهسازی برای آگاهی از دنیای واقعی، اشاره کردهاند.
نمونههای تصویری در مقالهی مدل Kosmos-1 روش تجزیهوتحلیل تصاویر و پاسخ سؤالات مرتبط با آنها را ارائه میدهد. این مدل همچنین آزمون بصری هوش را با دقت ۲۲ تا ۲۶ درصد انجام داده است.
درحالیکه طی ماههای اخیر شاهد انتشار خبرهای بسیار زیادی درمورد مدلهای زبانی بزرگ (LLM) هستیم، برخی کارشناسان از هوش مصنوعی چندوجهی بهعنوان مسیری بالقوه برای توسعهی هوش عمومی مصنوعی یاد میکنند؛ فناوری جالبی که ظاهراً میتواند در انجام مشاغل فکری جایگزین انسانها شود. درواقع دستیابی به AGI یکی از اهداف مهم OpenAI در فضای هوش مصنوعی است.
بهنظر میرسد مایکروسافت بهتنهایی Kosmos-1 را توسعه داده و OpenAI نقشی در ساخت آن نداشته است. محققان این پروژه را «مدل زبانی بزرگ چندوجهی» یا MLLM مینامند زیرا در پردازش زبان طبیعی از مدلهای زبانی بزرگ (LLM) متنی بهره میبرد که نمونهی بارز آن را در ChatGPT مشاهده کردهایم. محققان برای اینکه Kosmos-1 ورودی تصویری را بپذیرد، ابتدا باید عکس را به یکسری نشانههای خاص متنی ترجمه کنند تا LLM بتواند آن را درک کند. مقالهی مربوط به مدل هوش مصنوعی چندوجهی جدید مایکروسافت این موضوع را با جزئیات بیشتر شرح داده است:
بهنوشتهی ArsTechnica، ابتدا برای ورودی دریافت شده به توالی نشانههای ویژه تبدیل میشود. بهطور خاص از پاراگراف یک ورودی متنی و تصویری را ادغام میکند.
یک ماژول داخلی نیز برای رمزنگاری نشانههای متنی و سایر ورودیها در بردارهای مدل Kosmos-1 تعبیه شده است. این ورودیها سپس وارد بخش دریافتکننده میشوند. علاوهبراین از یک جدول جستجو برای درج نشانههای ورودی، استفاده شده است. برای ورودیهایی مثل صدا و تصویر میتوان آنها را بهشکل کدهای گسسته نمایش داد و سپس بهعنوان زبانهای خارجی درنظر گرفت.
مایکروسافت برای آموزش Kosmos-1 از دادههای وب مثل گزیدههایی از The Pile (منبع متن انگلیسی با حجم ۸۰۰ گیگابایت) و Common Crawl استفاده کرده است. این شرکت سپس تواناییهای مدل هوش مصنوعی جدید خود را در چند آزمون ازجمله درک زبان، تولید زبان، طبقهبندی متن بدون استفاده از روش OCR، توضیح تصویر، پاسخگویی به سؤالات تصویری، پاسخگویی به سؤالات صفحات وب و طبقهبندی تصاویر ارزیابی کرده است. مایکروسافت میگوید عملکرد Kosmos-1 در بسیاری از این آزمونها نسبت به مدلهای هوش مصنوعی پیشرفتهی کنونی بهتر است.
عملکرد Kosmos-1 در تست Raven نیز بسیار جالب است؛ آزمونی که ضریب هوشی بصری را با ارائهی دنبالهای از شکلها، اندازهگیری میکند و از آزموندهنده میخواهد تا دنبالهی موردنظر را تکمیل کند. محققان برای آزمایش مدل هوش مصنوعی چندوجهی خود یک آزمون تکمیل شده را به آن ارائه دادند تا تشخیص دهد آیا پاسخها صحیح هستند یا خیر. Kosmos-1 فقط در ۲۲ درصد مواقع میتوانست پاسخهای صحیح آزمون Raven را ارائه دهد. البته با تنظیم دقیق این مدل هوش مصنوعی، درصد پاسخهای صحیح آن به ۲۶ درصد افزایش یافته است. اگرچه این نتایج خیرهکننده بهنظر نمیرسد اما مدل هوش مصنوعی جدید مایکروسافت موفق شد شانس ۱۷ درصدی پاسخگویی تصادفی صحیح به تست هوش Raven را شکست دهد.
درحالیکه Kosmos-1 فعلاً درحال برداشتن اولین گامها در حوزهی هوش مصنوعی چندوجهی است، میتوان تصور کرد بهینهسازیهای آینده، نتایج بسیار بهتری بهدنبال داشته باشند. این پیشرفتها به مدلهای هوش مصنوعی اجازه میدهد هر نوعی از رسانهها مثل متن، تصویر، صوت و ویدیو را درک و براساس آن عمل کنند و بدینترتیب تواناییهای دستیارهای مجازی بهمیزان درخورتوجهی افزایش خواهد یافت. محققان قصد دارند ابعاد مدل Kosmos-1 را در آینده گسترش داده و قابلیت گفتار را با آن ادغام کنند.
مایکروسافت تصمیم دارد Kosmos-1 را در دسترس توسعهدهندگان قرار دهد اما صفحهی گیتهاب پروژه تا این لحظه هیچ کد مشخصی ارائه نمیدهد ولی احتمالاً بهزودی شاهد انتشار کدهای مدل هوش مصنوعی چندوجهی مذکور خواهیم بود.