پلاس وی
2 سال پیش / خواندن دقیقه

هوش مصنوعی جدید مایکروسافت، محتوای تصاویر را درک می‌کند و به سؤالات تصویری پاسخ می‌دهد

هوش مصنوعی جدید مایکروسافت، محتوای تصاویر را درک می‌کند و به سؤالات تصویری پاسخ می‌دهد

مایکروسافت باور دارد رویکرد چندوجهی، مسیر توسعه‌ی هوش مصنوعی در سطح انسان را هموار می‌کند.

محققان مایکروسافت مدل هوش مصنوعی چندوجهی جدیدی به‌نام Kosmos-1 معرفی کرده‌اند که طبق گزارش‌ها می‌تواند محتوای تصاویر را تجزیه‌وتحلیل و معماهای تصویری را حل کند. این مدل همچنین متن موجود در تصاویر را تشخیص و آزمون‌های بصری هوشی را انجام می‌دهد. از دیگر قابلیت‌های مدل هوش مصنوعی جدید غول فناوری اهل ردموند می‌توان به درک دستورالعمل‌های زبان طبیعی اشاره کرد. محققان می‌گویند هوش مصنوعی چندوجهی که حالت‌های مختلف ورودی مثل متن، صوت، تصویر و ویدیو را ادغام می‌کند، گام بسیار مهمی برای ساخت هوش عمومی مصنوعی (AGI) با قابلیت انجام وظایف عمومی درسطح انسان است.

محققان در مقاله‌ی آکادمیک خود با عنوان «زبان همه‌ی آن چیزی نیست که نیاز دارید: همسو کردن ادراک با مدل‌های زبانی طبیعی»، به بخش اساسی هوش مصنوعی، نیاز به هوش مصنوعی چندوجهی برای دستیابی به هوش عمومی مصنوعی از نظر کسب دانش و زمینه‌سازی برای آگاهی از دنیای واقعی، اشاره کرده‌اند.

نمونه‌های تصویری در مقاله‌ی مدل Kosmos-1 روش تجزیه‌وتحلیل تصاویر و پاسخ سؤالات مرتبط با آن‌ها را ارائه می‌دهد. این مدل همچنین آزمون بصری هوش را با دقت ۲۲ تا ۲۶ درصد انجام داده است.

درحالی‌که طی ماه‌های اخیر شاهد انتشار خبرهای بسیار زیادی درمورد مدل‌های زبانی بزرگ (LLM) هستیم، برخی کارشناسان از هوش مصنوعی چندوجهی به‌عنوان مسیری بالقوه برای توسعه‌ی هوش عمومی مصنوعی یاد می‌کنند؛ فناوری جالبی که ظاهراً می‌تواند در انجام مشاغل فکری جایگزین انسان‌ها شود. درواقع دستیابی به AGI یکی از اهداف مهم OpenAI در فضای هوش مصنوعی است.

به‌نظر می‌رسد مایکروسافت به‌تنهایی Kosmos-1 را توسعه داده و OpenAI نقشی در ساخت آن نداشته است. محققان این پروژه را «مدل زبانی بزرگ چندوجهی» یا MLLM می‌نامند زیرا در پردازش زبان طبیعی از مدل‌های زبانی بزرگ (LLM) متنی بهره می‌برد که نمونه‌ی بارز آن را در ChatGPT مشاهده کرده‌ایم. محققان برای اینکه Kosmos-1 ورودی تصویری را بپذیرد، ابتدا باید عکس را به یک‌سری نشانه‌های خاص متنی ترجمه کنند تا LLM بتواند آن را درک کند. مقاله‌ی مربوط به مدل هوش مصنوعی چندوجهی جدید مایکروسافت این موضوع را با جزئیات بیشتر شرح داده است:

به‌نوشته‌ی ArsTechnica، ابتدا برای ورودی دریافت شده به توالی نشانه‌های ویژه تبدیل می‌شود. به‌طور خاص از و برای نشان دادن شروع و پایان هر دنباله استفاده شده است. نشانه‌های ویژه‌ی و نیز شروع و پایان تصاویر رمزنگاری‌شده را نشان می‌دهند. به‌عنوان مثال سند موردنظر یک ورودی متنی است و پاراگراف تصویر پاراگراف یک ورودی متنی و تصویری را ادغام می‌کند.

یک ماژول داخلی نیز برای رمزنگاری نشانه‌های متنی و سایر ورودی‌ها در بردارهای مدل Kosmos-1 تعبیه شده است. این ورودی‌ها سپس وارد بخش دریافت‌کننده می‌شوند. علاوه‌براین از یک جدول جستجو برای درج نشانه‌های ورودی، استفاده شده است. برای ورودی‌هایی مثل صدا و تصویر می‌توان آن‌ها را به‌شکل کدهای گسسته نمایش داد و سپس به‌عنوان زبان‌های خارجی درنظر گرفت.

مایکروسافت برای آموزش Kosmos-1 از داده‌های وب مثل گزیده‌هایی از The Pile (منبع متن انگلیسی با حجم ۸۰۰ گیگابایت) و Common Crawl استفاده کرده است. این شرکت سپس توانایی‌های مدل هوش مصنوعی جدید خود را در چند آزمون ازجمله درک زبان، تولید زبان، طبقه‌بندی متن بدون استفاده از روش OCR، توضیح تصویر، پاسخ‌گویی به سؤالات تصویری، پاسخ‌گویی به سؤالات صفحات وب و طبقه‌بندی تصاویر ارزیابی کرده است. مایکروسافت می‌گوید عملکرد Kosmos-1 در بسیاری از این آزمون‌ها نسبت به مد‌ل‌های هوش مصنوعی پیشرفته‌ی کنونی بهتر است.

عملکرد Kosmos-1 در تست Raven نیز بسیار جالب است؛ آزمونی که ضریب هوشی بصری را با ارائه‌ی دنباله‌ای از شکل‌ها، اندازه‌گیری می‌کند و از آزمون‌دهنده می‌خواهد تا دنباله‌ی موردنظر را تکمیل کند. محققان برای آزمایش مدل هوش مصنوعی چندوجهی خود یک آزمون تکمیل شده را به آن ارائه دادند تا تشخیص دهد آیا پاسخ‌ها صحیح هستند یا خیر. Kosmos-1 فقط در ۲۲ درصد مواقع می‌توانست پاسخ‌های صحیح آزمون Raven را ارائه دهد. البته با تنظیم دقیق این مدل هوش مصنوعی، درصد پاسخ‌های صحیح آن به ۲۶ درصد افزایش یافته است. اگرچه این نتایج خیره‌کننده به‌نظر نمی‌رسد اما مدل هوش مصنوعی جدید مایکروسافت موفق شد شانس ۱۷ درصدی پاسخ‌گویی تصادفی صحیح به تست هوش Raven را شکست دهد.

درحالی‌که Kosmos-1 فعلاً درحال برداشتن اولین گام‌ها در حوزه‌ی هوش مصنوعی چندوجهی است، می‌توان تصور کرد بهینه‌سازی‌های آینده، نتایج بسیار بهتری به‌دنبال داشته باشند. این پیشرفت‌ها به مدل‌های هوش مصنوعی اجازه می‌دهد هر نوعی از رسانه‌ها مثل متن، تصویر، صوت و ویدیو را درک و براساس آن عمل کنند و بدین‌ترتیب توانایی‌های دستیارهای مجازی به‌میزان درخورتوجهی افزایش خواهد یافت. محققان قصد دارند ابعاد مدل Kosmos-1 را در آینده گسترش داده و قابلیت‌ گفتار را با آن ادغام کنند.

مایکروسافت تصمیم دارد Kosmos-1 را در دسترس توسعه‌دهندگان قرار دهد اما صفحه‌ی گیت‌هاب پروژه تا این‌ لحظه هیچ کد مشخصی ارائه نمی‌دهد ولی احتمالاً به‌زودی شاهد انتشار کدهای مدل هوش مصنوعی چندوجهی مذکور خواهیم بود.


هر آنچه میخواهید در اینجا بخوانید
شاید از نوشته‌های زیر خوشتان بیاید
نظر خود را درباره این پست بنویسید ...

منوی سریع