پس از ماهها شایعه و گمانهزنی، شرکت OpenAI (خالق ChatGPT) سرانجام مدل هوش مصنوعی GPT-4 را معرفی کرد. GPT-4 جدیدترین نمونه از مدلهای زبانی است، ابزارهایی که از آنها برای ساخت سرویسهایی مثل ChatGPT و نسخهی جدید بینگ استفاده میشود.
بر اساس گزارش ورج، OpenAI میگوید مدل هوش مصنوعی جدیدش «نوآورتر و مشارکتیتر از همیشه است» و میتواند «مسائل سخت را با دقت بالاتر حل کند.» مدل زبانی GPT-4 برخلاف نسخهی قبل میتواند افزونبر ورودیهای متنی، ورودیهای تصویری را نیز تجزیهوتحلیل کند، اما صرفا از طریق متن پاسخ میدهد.
OpenAI میگوید با چند شرکت نظیر Duolingo و Stripe و Khan Academy وارد همکاری شده است تا مدل زبانی جدیدش را وارد سرویسهای آنها کند. کاربران سرویس اشتراکی ChatGPT Plus که ماهانه ۲۰ دلار قیمت دارد، میتوانند به مدل زبانی جدید دسترسی پیدا کنند. مایکروسافت در بیانیهای جداگانه تأیید کرده که نسخهی جدید بینگ مبتنیبر GPT-4 است. OpenAI قصد دارد بهزودی API مدل زبانی GPT-4 را در دسترس توسعهدهندگان قرار دهد.
بر اساس گفتهی OpenAI، تفاوت بیت GPT-4 و GPT-3.5 در گفتوگوهای عادی، «نامحسوس» است. GPT-3.5 همان مدلی است که از آن برای توسعهی ChatGPT استفاده شده. سم آلتمن، مدیرعامل OpenAI، در توییتی میگوید GPT-4 «هنوز ناقص و محدود است» و در برخورد اول تأثیرگذارتر از حالتی ظاهر میشود که مدتی با آن کار میکنید.
تفاوتهای GPT-4 با مدل قبل بیشتر در آزمونهایی مثل آزمون وکالت، آزمون اجرایی حقوق و آزمون ریاضی SAT به چشم میآید. GPT-4 موفق شده است در شماری از آزمونها امتیازی در صدک هشتادوهشتم و بالاتر ثبت کند.
در یک سال اخیر شایعههای زیادی با محوریت مدل زبانی GPT-4 منتشر شد و بسیاری از تحلیلگران اعتقاد داشتند که GPT-4 قرار است جهش بزرگی نسبتبه نسخهی فعلی مدل زبانی GPT تجربه کند؛ با اینحال بر اساس آنچه در بیانیهی OpenAI میبینیم، GPT-4 در حد و اندازهای که فکرش را میکردیم متحول نشده است.
هفتهی گذشته یکی از مدیران مایکروسافت در مصاحبه با رسانهای آلمانی تأیید کرده بود که مدل زبانی GPT-4 این هفته معرفی میشود. در آن زمان گفته شد که GPT-4 افزونبر محتوای متنی از محتوای تصویری نیز پشتیبانی میکند. بسیاری از پژوهشگران حوزهی هوش مصنوعی معتقدند مدلهای چندحالته که متن، صدا و ویدیو را ترکیب میکنند، بهترین راهکار برای ساخت ابزارهای هوش مصنوعی فوق پیشرفته هستند.
همانطور که مدیر مایکروسافت گفته بود، GPT-4 واقعا مدلی چندحالته است، اما تعداد فرمتهای تحت پشتیبانی این مدل هوش مصنوعی کمتر از آن چیزی است که فکرش را میکردیم. GPT-4 میتواند متن و تصویر را دریافت کند و خروجی متنی ارائه دهد. توانایی GPT-4 در تجزیهوتحلیل همزمان متن و تصویر، به این مدل هوش مصنوعی امکان میدهد ورودیهای پیچیدهتری را تفسیر کند. در نمونههای زیر میتوانید ببینید که GPT-4 چگونه میمها و تصاویر غیرمعمول را توصیف میکند:
قابلیتهایی که GPT-4 ارائه میدهد، یکشبه ساخته نشدهاند. OpenAI و تمامی شرکتهای فعال در صنعت هوش مصنوعی سالها است که سیستمهای پیشرفتهای توسعه میدهند و میلیاردها دلار سرمایهگذاری میکنند. ثمرهی این تلاشهای طولانیمدت را اواخر سال ۲۰۲۲ دیدیم، زمانی که هوش مصنوعی بهلطف انتشار عمومی ChatGPT به یک فناوری میناستریم تبدیل شد.
اولین مقالهای که مدل زبانی GPT را توصیف میکرد، در سال ۲۰۱۸ منتشر شد. مدل زبانی GPT-2 در سال ۲۰۱۹ از راه رسید و OpenAI یک سال بعد سراغ معرفی GPT-3 رفت. این مدلها بر پایهی دیتاست عظیمی از متن تعلیم داده میشوند. بخش قابلتوجهی از این متنها، از اینترنت استخراج شدهاند.
OpenAI انتشار عمومی مدلهای GPT را به دلیل ترس از سوءاستفادهی افراد سودجو، به تأخیر انداخته بود، با اینحال در اواخر سال ۲۰۲۲ شاهد انتشار عمومی ChatGPT بودیم، چتبات پرحاشیهای که در ماههای اخیر بارها به تیتر یک رسانههای فناوری تبدیل شده است. زمان زیادی نگذشته بود که فناوری پیشرفتهتر از ChatGPT به موتور جستوجوی بینگ اضافه شد.
OpenAI میگوید ۶ ماه تلاش کرده است تا ایمنی GPT-4 را افزایش دهد. بر اساس آزمونهای داخلی این شرکت، احتمال اینکه GPT-4 به سؤالات غیرمجاز پاسخ دهد، ۸۲ درصد کمتر از GPT-3.5 است. همچنین مدل هوش مصنوعی جدید با احتمال ۴۰ درصد بیشتر، پاسخهایی با صحت علمی تولید میکند.