3 سال پیش / خواندن دقیقه

مدل چندحسی متا، آینده جذاب هوش مصنوعی مولد را برای ترکیب داده‌های مختلف نشان می‌دهد

مدل هوش مصنوعی ImageBind متا، داده‌های متنی، صوتی، تصویری، حرکتی، حرارتی و عمقی را ترکیب می‌کند و آینده‌ی مدل‌های تولید محتوای چندحسی را نشان می‌دهد.

مدل هوش مصنوعی منبع‌باز جدید متا چند نوع داده ازجمله متن، صوت، تصویر، دما و غیره را باهم ترکیب می‌کند.

مدل ImageBind درحال حاضر فقط یک پروژه‌ی تحقیقاتی محسوب می‌شود و کاربرد عملی خاصی برای آن تعریف نشده است. این مدل به آینده‌ی سیستم‌های هوش مصنوعی مولد اشاره دارد که می‌توانند تجربه‌ای همه‌جانبه و چندحسی ایجاد کنند.

مفهوم اصلی ImageBind، ایجاد پیوند میان چندنوع داده‌ی مختلف است. شاید این ایده کمی انتزاعی به‌نظر برسد اما می‌تواند به‌عنوان زیربنای هوش مصنوعی مولد درنظر گرفته شود.

به‌عنوان مثال، ابزارهای هوش مصنوعی تولیدکننده‌ی تصویر ازجمله Stable Diffusion، DALL-E و میدجورنی همگی به سیستم‌هایی متکی هستند که متن و تصویر را با یکدیگر ترکیب می‌کنند. این مدل‌ها در داده‌های تصویری به‌دنبال الگوهای خاص هستند و اطلاعات به‌دست آمده را با توضیحات تصاویر مرتبط می‌کنند. چنین قابلیتی باعث می‌شود سیستم‌های هوش مصنوعی مولد، تصاویری تولید کنند که با ورودی متنی مطابقت دارند. همین ویژگی در بسیاری از ابزارهای هوش مصنوعی که ویدیو یا صدا تولید می‌کنند نیز وجود دارد.

متا می‌گوید ImageBind اولین مدلی است که ۶ نوع داده را با یکدیگر ترکیب می‌کند. این داده‌ها شامل تصویر، اطلاعات حرارتی (تصاویر مادون‌قرمز)، متن، صوت، اطلاعات عمقی و خوانش‌های حرکتی ایجاد شده با واحد اندازه‌گیری اینرسی یا IMU است. IMUها در گوشی‌ها و ساعت‌های هوشمند برای طیف گسترده‌از کارها مثل شناسایی حالت افقی و عمومی نمایشگر مورد استفاده قرار می‌گیرند.

ایده‌ی متا این است که سیستم‌های هوش مصنوعی آینده بتوانند داده‌های مختلف را به‌همان روشی که سیستم‌های هوش مصنوعی کنونی برای ورودی متن انجام می‌دهند، ترکیب کنند. به‌عنوان مثال دستگاه واقعیت مجازی آینده‌نگرانه‌ای را تصور کنید که علاوه‌بر ورودی صوتی و بصری، محیط و نوع حرکت شما را در صحنه‌ی فیزیکی می‌سازد. شاید از مدل مورد اشاره بخواهید سفر دریایی طولانی‌مدتی را ایجاد کند و بدین‌ترتیب صحنه‌ای شامل کشتی و دریا به‌همراه صدای امواج در پس‌زمینه ایجاد خواهد شد و تکان خوردن عرشه را درکنار نسیم خنک هوای اقیانوس ارائه می‌دهد.

متا با انتشار پستی وبلاگی اشاره کرد می‌توان جریان‌های ورودی حسی دیگری مثل سیگنال‌های لمس، گفتار، بو و حتی fMRI مغز را به مدل‌های آینده اضافه کرد. این شرکت می‌گوید مدل هوش مصنوعی ImageBind و نسخه‌های آینده‌ی آن، توانایی یادگیری فناوری را به سطح توانایی انسان نزدیک‌تر می‌کند.

ورج می‌نویسد، قابلیت‌های آینده‌ی مدل‌های هوش مصنوعی چندحسی فعلاً درحد حدس‌وگمان است و شاید کاربردهای تحقیقاتی آن بسیار محدودتر باشد. متا سال گذشته مدل هوش مصنوعی جدیدی به‌نمایش گذاشت که با دریافت توضیحات متنی، ویدیو تولید می‌کرد. مدل‌هایی مثل ImageBind نشان می‌دهند نسخه‌های آینده‌ی این سیستم چگونه می‌تواند جریان‌های مختلف داده مثل صدا و تصویر را برای تولید ویدیوهای بهتر و با کیفیت‌تر، ترکیب کند.

یکی دیگر از جذابیت‌های ImageBind، منبع‌باز بودن این مدل هوش مصنوعی است که باعث می‌شود افراد بیشتری آن را مورد بررسی قرار دهند و ازطرفی به بهبود آن کمک کنند.

شرکت‌هایی مثل‌ ‌OpenAI اعتقاد دارند منبع‌باز کردن مدل‌های هوش مصنوعی برای سازندگان این سیستم‌ها مضر است زیرا رقبا می‌توانند از مدل‌های آن‌ها کپی‌برداری کنند. ازطرف دیگر مهاجمان سایبری می‌توانند از مدل‌های هوش مصنوعی منبع‌باز برای مقاصد شوم خود بهره ببرند. البته در سمت مقابل برخی اعتقاد دارند منبع‌باز بودن مدل‌ها باعث می‌شود افراد و شرکت‌های مختلف نسبت‌به رفع عیب و بهبود قابلیت‌های چنین سیستم‌هایی اقدام کنند. علاوه‌براین شرکت‌ها با منبع‌باز کردن مدل‌های هوش مصنوعی، به‌طور رایگان از تلاش‌های توسعه‌دهندگان شخص‌ثالث بهره خواهند برد و بدین‌ترتیب در هزینه‌های خود صرفه‌جویی خواهند کرد.

متا تا کنون برخی مدل‌های هوش مصنوعی خود ازجمله LLaMA را به‌صورت منبع‌بار ارائه داده است و این روند با ImageBind همچنان ادامه دارد.

0 نظر