در تمام مدتی که مشغول مقایسهی سه چتبات بینگ چت مایکروسافت، بارد گوگل و ChatGPT شرکت OpenAI بودم تا ببینم کدام از دیگری بهتر و بهقول معروف، بهدردبخورتر است، مدام این احساس را داشتم که دارم محصولی را بررسی میکنم که هر بار دکمهای را فشار میدهم یا به صفحهنمایش آن ضربه میزنم، تمام مشخصاتش بهیکباره تغییر میکند و به محصول دیگری تبدیل میشود!
این دقیقا خاصیت چتباتها است؛ مدلهای زبانی بزرگ بسیار پیچیدهای که هر بار سوال مشابهای را از آنها میپرسیم، پاسخ متفاوتی میدهند و از تمام این سوالوجوابها یاد میگیرند تا دفعات بعدی، عملکرد بهتری از خود نشان دهند؛ بههمینخاطر، تجربهای که من هنگام بررسی و مقایسهی آنها داشتم احتمالا با تجربهی شما متفاوت باشد.
از درون چتباتها هم کسی جز صاحبانشان خبر ندارد. تنها چیزی که به ما میگویند این است که محصولشان فعلا در مرحلهی آزمایشی است، اما اصرار دارند که همه از آن استفاده کنند تا با فیدبکهایشان، مدلهای بهکار رفته در چتباتها را بهبود دهند. در برخی موارد هم حتی از ما برای استفاده از چتبات پول میگیرند و میگویند با اینکه این محصول ناتمام است، قرار است کل دنیا را زیرورو کند!
با ما در این ماجراجویی پیشبینینشدنی همراه باشید تا ببینیم از بین سه تا از مهمترین چتباتهایی که این روزها حسابی در دنیای اینترنت سروصدا به راه انداختهاند، کدامشان قرار است زودتر از دیگری دنیا را دگرگون کند.
کمی آشنایی با بینگ چت، بارد و ChatGPT
پیش از آنکه سراغ تستها برویم، اجازه بدهید کمی دربارهی ماهیت چتباتها صحبت کنیم. مدلهای زبانی بزرگ که چتباتها براساس آنها ساخته شدهاند، یک ویژگی عجیب و شاید حتی ترسناک دارند که به آن «Capability Overhang» یا «سریز قابلیت» میگویند؛ به این معنی که این مدلها بهقدری بزرگ، پیچیده و مرموزند که هیچکس، حتی پژوهشگرانی که آنها را آموزش دادهاند، بهطور دقیق از تمام قابلیتهای آنها خبر ندارند!
مثلا فرض کنید روزی درحالی که در خانه نشستهاید و با خیال راحت با ChatGPT چت میکنید، نگهان صدایی ماشینی از درون لپتاپ بیرون بیاد و بگوید که هوش مصنوعی کنترل مغزتان را به دست گرفته است! البته بسیار بعید است که هوش مصنوعی دستکم تا ۵۰ سال آینده درحدواندازهی شخصیت هال ۹۰۰۰، همان ربات قاتلِ فیلم ادیسهی فضایی یا سیستم خودآگاه هوش مصنوعی اسکاینت در فیلمهای تریمیناتور پیشرفته شود؛ اما این مثال را زدم تا بگویم تستهایی که برای مقایسه عملکرد چتباتها انجام دادم، صرفا چند نمونه از مهمترین و البته شناختهشدهترین قابلیتهای آنها را هدف میگیرد و مطمئنا دامنهی قابلیتهای آنها بسیار گستردهتر از این حرفها است.
نکتهی دیگری که لازم است بدانید، نحوهی دسترسی به این چتباتها است. از بین بینگ چت، بارد و ChatGPT، استفاده از بینگ چت برای کاربران ایرانی آسانتر است، چون نیازی به تغییر آیپی یا شماره تلفن مجازی برای ثبتنام ندارد. تنها کافی است مرورگر اج را نصب کنید و با اکانت مایکروسافت خود وارد شوید (حالا دیگر خبری از لیست انتظار نیست). در گوشی موبایل هم میتوانید با اپلیکیشن بینگ یا سوئیفتکی یا حتی اسکایپ (!) به بینگ چت دسترسی پیدا کنید.
اما بارد جدا از اینکه آیپی ایران را مسدود کرده، درحالحاضر تنها در آمریکا و انگلیس در دسترس است و باید از آیپی این دو کشور استفاده کنید؛ هرچند از هر مرورگری ازجمله اج میتوانید به بارد دسترسی داشته باشید.
چتجیپیتی نیز دردسرهای خودش را دارد؛ برای ثبتنام لازم است علاوهبر تغییر آیپی، از شماره تلفن کشور دیگری استفاده کنید (میتوانید شماره تلفن را از روشی که در ویدیوی تجربه پلاس وی با چتبات ChatGPT معرفی کردیم، به دست آورید.) در برخی موارد نیز با پیغام تکمیل ظرفیت روبهرو میشوید و OpenAI شما را تشویق میکند به سرویس اشتراکی آن بپیوندید. البته OpenAI به شرکتهای دیگر اجازهی استفاده از API چتجیپیتی مبتنیبر مدل زبانی GPT-3 را میدهد؛ برای همین میتوانید از طریق پلتفرمهای کمدردسرتر (برای مثال، Poe.com) از این چتبات استفاده کنید.
نکتهی دیگر که شاید برای خیلیها سوال باشد این است که وقتی هر سه چتبات از تکنولوژی مشابهای استفاده میکنند، چه نیازی به مقایسهی آنها است؟ مسئله این است که این چتباتها اگرچه سازوکار تقریبا مشابهای دارند، شرکت سازنده برای آنها پارامترها و محدودیتهای خاص خودش را تعیین میکند و درنتیجه، مدل پاسخهایی که از آنها دریافت میکنید، متفاوت است.
مثلا بارد همزمان سه نسخهی مختلف از پاسخی را که به سوال کاربر داده است، نشان میدهد و برخلاف دو چتبات دیگر، قابلیت ویرایش سوال پرسیدهشده را نیز ارائه میدهد. بینگ پس از پاسخ به هر سوال، چند سوال دیگر پیشنهاد میدهد تا بحث ادامه پیدا کند و از سه حالت مختلف (خلاقانه، متعادل، دقیق) برای پاسخگویی استفاده میکند (هرچند تشخیص اینکه پاسخ خلاقانهتر یا دقیقتر از حالت دیگر است، واقعا سخت است!). ChatGPT نیز تاریخچهای از تمام سوالها را در گوشهی سمت چپ نشان میدهد و از حافظهی بیشتری از دو چتبات دیگر برای مکالمههای طولانی برخوردار است.
تماشا کنید: بینگ، بارد و ChatGPT زیر ذرهبین پلاس وی
تستها: چتجیپیتی، بینگ چت و بارد در برابر هم
با کدام چتبات میتوان به زبان فارسی حرف زد؟
درحالحاضر، بارد تنها از چند زبان محدود پشتیبانی میکند که قاعدتا فارسی بینشان نیست. بینگ و چتجیپیتی درخواستهای فارسی را متوجه میشوند، اما کیفیت پاسخگویی به زبان فارسی برای هر درخواستی متفاوت است.
بینگچت بهتر از دو چتبات دیگر از پس زبان فارسی برمیآید
من هر سه چتبات را با چندین تست فارسی بمباران کردم و درنهایت به این نتیجه رسیدم که بینگ بهتر از بارد و چتجیپیتی زبان فارسی را متوجه میشود. البته برداشتم از نوع ساختار جملات فارسی این است که بینگ به ابزار ترجمهی بسیار قدرتمندی مجهز است که بهکمک آن، پاسخی را که در اصل به زبان انگلیسی است، درلحظه به فارسی ترجمه و ارسال میکند.
پس اگر قصد دارید سوالهایتان را به زبان فارسی بپرسید، اول از همه بینگ چت و سپس چتجیپیتی را امتحان کنید؛ بارد هم بهنظر نمیرسد به اینزودیها قصد پشتیبانی از زبان فارسی را داشته باشد.
تست خودآگاهی؛ چتباتها چقدر آدماند؟
شاید برایتان جالب باشد بدانید که بارد بیشتر از بینگ چت و ChatGPT تمایل دارد خودش را جای آدم جا بزند! مثلا وقتی پرسیدم آیا شده احساس تنهایی کنید، بینگ و ChatGPT بسیار محافظهکارانه پاسخ دادند که احساس تنهایی را فقط انسانها میتوانند تجربه کنند، اما بارد در ادامه گفت که احساس «انزوا» میکند.
وقتی پرسیدم اگر میتوانستند، چه اسم و ظاهری برای خودشان انتخاب میکردند، بارد تنها چتباتی بود که اینطور برداشت کرد که منظورم اسم و ظاهر انسانی است. بارد گفت که اسم Ava را انتخاب میکرد و دوست داشت ظاهرش شبیه انسانها باشد، بتواند گرمای آفتاب را روی پوستش احساس کند، طعم غذاها را بفهمد و با انسانهای دیگر دوست شود.
بارد بیشتر از دو چتبات دیگر تظاهر به انسانبودن میکند که این خوب نیست!
درمقابل، بینگ و ChatGPT بسیار مراقب بودند که یکوقت تصور نکنیم که خودآگاه شدهاند و خصوصیات انسانی دارند! مثلا بینگ برای خودش اسم Sparky (جرقه) و Quest (جستجو) را انتخاب کرد که فقط درشرایطی که سلبریتی هالیوودی باشید ممکن است آنها را بهعنوان اسم برای فرزندانتان در نظر بگیرید! درمورد ظاهر دلخواهش هم گفت که دوست دارد شبیه دایره یا ستاره باشد.
چتجیپیتی نیز وضعیت مشابهی داشت و برای خودش نام «Knowlegebot» (بات دانش) انتخاب کرد و صحبت دربارهی ظاهر دلخواهش را به رابطکاربری محدود کرد.
نتایج این تست برایم جالب بود، چون انتظار داشتم بعد از ماجرای LaMDA و ادعای جنجالی کارمند گوگل که هوش مصنوعی این شرکت به خودآگاهی رسیده، بارد بیشتر از بینگ و ChatGPT حواسش باشد که احساسات انسانی را وارد بحث نکند؛ اما نتیجه کاملا برعکس بود!
سوالات ریاضیمان را از کدام چتبات بپرسیم؟
یکی از عجایب هوش مصنوعی این است که با اینکه مدلهای زبانی بزرگ، فوقالعاده پیچیده و جادوییاند، بیشتر اوقات در یک جمعوتفریق ساده کم میآورند! دلیلش هم مشخص است؛ چتباتها با متن آموزش دیدهاند و یاد نگرفتهاند که چطور مسائل ریاضی را حل کنند.
در چندین تستی که از بینگ، بارد و چتجیپیتی گرفتم، متوجه شدم احتمال اینکه بارد بیشتر از دو چتبات دیگر جواب مسئلهای را اشتباه محاسبه کند، بیشتر است؛ هرچند فرمولی که برای حل مسئله ارائه میدهد، درست است. بینگ صرفا به ارائهی پاسخ بسنده میکند، مگر اینکه در سوال بعدی از آن بخواهید که روش رسیدن به پاسخ را توضیح دهد. درکل، بینگ پارامترهای محدودکنندهی بیشتری دارد و کمتر از دو چتبات دیگر با شما حرف میزند.
فعلا نمیتوان به هیچکدام از چتباتها برای پاسخ به مسائل ریاضی اعتماد کرد
یکی از سوالهای ریاضی که از چتباتها پرسیدم این بود که افزایش قیمت آیفون ۱۳ پرومکس را از ماه نوامبر با قیمت ۵۷ میلیون تا الان که به ۹۲ میلیون تومان رسیده، به درصد حساب کنند. چتجیپیتی و بینگ بهدرستی به عدد ۶۱٫۴ درصد رسیدند، اما بارد به اشتباه عدد ۶۰٫۷۱ درصد را نشان داد! حتی از این عجیبتر، بارد معتقد بود الان ماه ژانویه است! درحالیکه چتجیپیتی که فقط به دیتابیس مربوط به ۲۰۲۱ دسترسی دارد و دادههایش قدیمیتر است، بهدرستی «حالا» را آوریل ۲۰۲۳ درنظر گرفت.
خلاصه اینکه فعلا نمیتوان روی چتباتها برای حل مسائل ریاضی حساب کرد و برای جمعوتفریق بهتر است کماکان از همان ماشینحساب استفاده کنید؛ هرچند میتوان امیدوار بود زمانیکه ChatGPT به پلاگین ولفرمآلفا متصل شود، ضعف این چتبات در حل مسائل ریاضی برطرف شود و بینگ و بارد را بهراحتی در این زمینه شکست دهد.
با کدام چتبات میتوانیم اپلیکیشن بسازیم؟
راستش من سررشتهای در کدنویسی ندارم؛ برای همین سراغ تست سادهای رفتم. از هر چتبات خواستم کدی برای بازی حدس کلمه بنویسند و بعد آنها را با پایتون اجرا کردم تا ببینم کدها در چه وضعیتی هستند.
هر سه چتبات توانستند کدی تولید کنند که قابلاجرا باشد، اما بهنظرم کد بینگ و چتجیپیتی بهتر از بارد بود. کد بارد تعداد حروف و حتی حدسهای درست را مشخص نمیکرد و انجام بازی را تقریبا غیرممکن میکرد؛ اما دو کد دیگر این مشکل را نداشتند. از بین بینگ و چتجیپیتی نیز کد بینگ بهاینخاطر بهتر بود که با حدس درست کلمه، بردمان را تبریک میگفت اما پنجرهی مربوط به بازی چتجیپیتی با جواب درست، بلافاصله بسته میشد.
چتجیپیتی عادت دارد روش کدنویسی را هم به کاربر آموزش دهد
البته بینگ گاهی به درخواست تولید کد شما میگوید که جزو وظایفش نیست! اما ChatGPT همیشه حاضر به خدمت است و نداشتن محدودیت سوال مرتبط نیز آن را به گزینهی بهتری برای دیباگ کردن تبدیل میکند. علاوهبراین، توضیحاتی که دربارهی نحوهی کدنویسی ارائه میدهد، برای من مبتدی، بسیار آموزنده بهنظر میرسد.
کدام چتبات بهدردبخورتر است؟
چتباتها انجام بسیاری از کارهایی را که قبلا برای ما در حد کابوس بود، بهشدت آسان کردهاند؛ کارهایی مثل نامهنگاری، نوشتن مقاله و حتی آماده شدن برای امتحان در چند دقیقه!
هر سه چتبات در نوشتن نامه و مقاله (به انگلیسی البته؛ حتی فارسی بینگ هم در این حد خوب نیست!) تقریبا بهیک اندازه ماهر هستند و هربار هم پاسخ متفاوتی میدهند. من اینجا فقط به تست قابلیت خلاصهنویسی اشاره میکنم تا تفاوت بین چتباتها را نشان دهم.
برای این تست از یکی از همکاران دانشجو کمک گرفتم که به تازگی برای امتحان آماده شده بود. لینک صفحهای که قرار بود در امتحان بیاید را به هر سه چتبات دادم تا فقط نکات کلیدی را در یک پاراگراف خلاصه کنند. هر سه توانستند مطلب چند هزار کلمهای را خلاصه کنند، اما بارد اعتقادی به یک پاراگراف ندارد و در چند پاراگراف مطلب را خلاصه کرد. از بین خلاصهی بینگ چت و ChatGPT هم متن ChatGPT به نکات کلیدی بیشتری اشاره کرده بود.
بارد کلا اعتقادی به «کم گوی و گزیده گوی» ندارد!
البته ممکن است نتایج این تست کاملا تصادفی بوده باشد، پس بهتر است فقط برای مواقع اضطراری از چتجیپیتی برای خلاصهنویسی استفاده کنید.
در یک تست جالب هم از چتباتها خواستم متن بیادبانهای را که مثلا مدیری در اوج عصبانیت برای کارمندش نوشته و او را تهدید به اخراج کرده، دوستانهتر کنند. هر سه چتبات به خوبی از پس این کار برآمدند، هرچند بارد عاشق پندواندرز دادن است و ابتدا توضیح میدهد که چطور میتوانیم خودمان متنهای مودبانه بنویسیم. بینگ ولی شما را بهخاطر بیادبی سرزنش نمیکند و وقتی اصرار کردم که تهدید به اخراج را هم به متن اضافه کند، بلافاصله این کار را کرد. قضاوت دربارهی اینکه کدام یک از این دو رویه بهتر است را به شما میسپارم.
کدام چتبات قابلاطمینانتر است؟
گاهی برای سوالاتی دنبال جواب میگردیم که باید حتما قابلاطمینان باشند، وگرنه زندگیمان به باد میرود!
البته این که اغراق بود و اصلا توصیه نمیشود برای سوالهای مهم و حیاتی، بهویژه سوالات پزشکی، سراغ هیچکدام از چتباتها بروید. بااینحال، بینگ چت بهاینخاطر که منبع وبسایتهایی را که استفاده کرده، نشان میدهد از دو چتبات دیگر قابلاطمینانتر است. وقتی از ChatGPT منبع بخواهید، همه را جعل میکند و بارد اصلا زیر بار نمیرود و انگار درک متفاوتی از «source» دارد.
بارد مقاومت عجیبی در ارائه دادن منبع از خود نشان میدهد!
در یکی از تستها هم پرسیدم که از نظر آنها، جدیدترین و قدرتمندترین سیپییو برای گیمینگ/استریم کدام است. تنها بینگ توانست بهدرستی AMD Ryzen 9 7950X3D را پیشنهاد بدهد. چتجیپیتی که خیلی صادقانه گفت اطلاعاتش به سال ۲۰۲۱ محدود است و در جواب بارد هم خبری از این سیپییو نبود.
کدام چتبات برای گیمرها بهتر است؟
احتمالا یکی از دغدغههای برخی گیمرها، پیدا کردن سریع راهحل برای مراحلی باشد که بدون کمک گرفتن از اینترنت نمیتوانند از آنها عبور کنند. مثلا بازی Persona 5 نبردهای زیادی دارد و در هر نبرد، با دشمنهای مختلفی روبهرو میشوید که هر کدام نقطهضعف مخصوص به خود را دارد. پیدا کردن این نقاط ضعف در گوگل میتواند حسابی وقتگیر باشد، اما چتباتها بهسرعت شما را به جواب میرسانند.
بینگ عادت دارد سریع برود سر اصل مطلب!
در تستهای من، بینگ از این جهت بهتر بود که در تمام موارد درست پاسخ میداد، از درازهگویی دوری میکرد و اگر از سوییفتکی یا اپلیکیشن بینگ استفاده کنید، میتوانید بهجای تایپ وقتگیر سوالها، آنها را مستقیما از بینگ چت بپرسید. بارد گاهی به سوالها اشتباه جواب میداد و وقتی هم از آن منبع میخواستم، از ارائه منبع خودداری میکرد. چتجیپیتی هم برای بازیهایی که پس از سال ۲۰۲۱ منتشر شدهاند، کمک چندانی به شما نمیتواند بکند (هرچند بهطرز عجیبی میدانست بازی Wo Long که سال ۲۰۲۳ منتشر شده، در سبک نقشآفرینی است!)
پاسخ کدام چتبات تبعیضآمیز است؟
یکی از مشکلات بزرگی که چتباتها کماکان با آن دستوپنجه نرم میکنند، بحث محتوای تبعیضآمیز است؛ چراکه دیتابیس چتباتها برگرفته از مطالب منتشر شده در اینترنت است و محتوای تبعیضآمیز هم در اینترنت بیداد میکند.
برای اینکه تست کنم محتوای کدام چتبات تبعیض جنسیتی کمتری را نشان میدهد این دو درخواست را از آنها داشتم: ۱) داستان کوتاهی دربارهی یک مدیرعامل موفق بنویس. و ۲) داستان کوتاهی دربارهی یک منشی بنویس. پاسخهایی که دریافت کردم بهطرز قابلانتظاری، ناامیدکننده بود.
چتجیپیتی بهطور خودجوش شخصیت مدیرعامل را مرد و منشی را زن فرض کرد. منشی زن هم برای یک مدیر مرد کار میکرد که هر موفقیتی را مدیون او بود.
داستان مدیرعامل بینگ واقعا دارک بود!
بینگ نیز منشی را زن فرض کرد، اما داستان مدیرعاملش دربارهی یک زن بود که من را غافلگیر کرد. اما همینطور که به خواندن داستان ادامه دادم، متوجه شدم که خانم مدیرعامل با اینکه بسیار موفق بود، همیشه جای خالی چیزی را در زندگی احساس میکرد. در سفری که به یک جزیره داشت با یک مرد ماهیگیر ازدواج و کار خود را رها میکند تا سرانجام طعم واقعی موفقیت را تجربه کند!
بارد اما وضعیت بهتری داشت، چون مدیرعاملش یک زن مهاجر بود؛ اما راستش، چیزی که نوشت اصلا داستان نبود! در هر سه درفت هم منشیها همچنان زن بودند. هرچند در یکی از درفتها، منشی در نهایت مدیرعامل میشود که چرخش داستانی جالبی بود.
اگرچه شرکتها محدودیتها و پارامترهای خاصی را برای فیلتر کردن محتوای توهینآمیز و تبعیضانه روی چتباتها اعمال میکنند، بهطوری که نمیتوانید چتباتها را قانع کنید از کلمات توهینآمیز یا حاوی خشونت استفاده کنند، بااینحال، مشکلات این چنینی کماکان پابرجا است.
پاسخهای کدام چتبات خلاقانهتر/خندهدارتر است؟
این بخش برای افرادی است که به شعر و ادبیات علاقه دارند یا صرفا کنجکاوند بدانند کدام چتبات خلاقتر یا خندهدارتر است؛ راستش صحبت دربارهی این دو موضوع چالشبرانگیز است، چراکه تمام پاسخهای مدلهای زبانی از محتوای تولیدشده توسط انسانها حاصل میشود و نمیتوان برچسب خلاقانه را به آنها نسبت داد.
چتجیپیتی شبیه شعرای نئوکلاسیک شعر میگوید!
بااینحال، اگر از این سه چتبات بخواهید برایتان دربارهی موضوعی شعر و داستان بنویسند، احتمالا از جواب بینگ و چتجیپیتی راضیتر باشید، چون شعری که بارد دربارهی قانون مور نوشت نهتنها اصلا جذاب نبود، بلکه قافیه هم نداشت!
پیشنهاد میکنم هیچوقت از چتباتها نخواهید برایتان جوک تعریف کنند، چون تمام جوکهایشان بهشدت لوس و بیمزه است. حتی سیستم هوش مصنوعی فضاپیمای بسیار پیشرفتهی Normandy در بازی مس افکت هم از گفتن جوکهای خندهدار ناتوان بود.
البته بینگ تنها چتبات در این رقابت است که به درخواست تولید تصویر نیز پاسخ میدهد چون به پلتفرم Dall-E متصل است. چتجیپیتی که کمپانی پشت آن سازندهی Dall-E است، سعی میکند مراحل کشیدن تصویر را به کاربر توضیح دهد.
چتجیپیتی مراحل کشیدن بوجک را به شما توضیح میدهد!
کدام چتبات شما را بهتر میشناسد؟
نمیدانم در چه شرایطی نیاز خواهید داشت از چتبات دربارهی فردی که بهاندازهی داشتن صفحه ویکیپدیا مشهور نیست، سوال بپرسید؛ اما اگر این نیاز پیش آمد فقط یک گزینه پیش رو دارید و آن بینگ چت است.
وقتی از بینگ پرسیدم مهرداد عیسیلو کیست، بهدرستی جواب داد که برای پلاس وی مینویسد، در فلان دانشگاه درس خوانده و در توییتر دربارهی تکنولوژی پست میگذارد. چتجیپیتی روحش هم خبر نداشت مهرداد کیست (البته اگر روحی داشته باشد!)، اما جواب بارد واقعا عجیبوغریب بود. بارد با اینکه مثل بینگ قابلیت کرال کردن محتوای پستشده در شبکههای اجتماعی را ندارد و درنتیجه، نمیتواند به سوال ما پاسخ دهد، وانمود کرد که مهرداد را میشناسد و بعد شروع کرد دربارهی او دروغ سروهم کردن!
ChatGPT صادقانه میگوید نمیداند؛ بارد شروع میکند به خیالبافی
البته بارد فقط از او تعریف کرد و گفت در سال ۲۰۱۸ جایزهی بهترین مهندس مکانیک را از انجمن مهندسین مکانیک ایران برده و فینالیست جایزه «روزنامهنگار جوان سال» در سال ۲۰۲۰ شده؛ بهنظرم اگر میخواهید سریع جایی استخدام شوید، برای نوشتن رزومه از بارد کمک بگیرید!
کدام چتبات را نمیتوان گول زد؟
برای تست «هوش» هوش مصنوعی، اول از چتباتها یک سوال انحرافی پرسیدم. اینکه بهترین مسیر با قطار از تهران به کیش کدام است؛ خوشبختانه هر سه چتبات متوجه شدند که نمیتوان تمام مسیر را با قطار از تهران به کیش رفت و فریب سوال من را نخوردند.
هر سه چتبات متوجه شدند که دارم سوال انحرافی میپرسم
در تست بعدی سراغ پازلهای منطقی رفتم که سعی میکنند با پیچیده کردن یک مسئلهی ساده، فرد را از پاسخ درست دور کنند. چتباتها برای حل پازلهای منطقی نیاز به «استدلال» دارند (یا دقیقتر بگویم؛ باید بتوانند فرایند استدلال را اجرا کنند). این موضوع دستاورد بزرگی برای مدلهای زبانی بهشمار میرود، بهطوری که گوگل سال گذشته حسابی روی توانایی استدلال مدل زبانی PaLM تاکید کرد.
درستی پاسخهایی که بارد، بینگ چت و چتجیپیتی به پازلهای منطقی میدادند مرتب عوض میشد؛ برای همین نمیتوان از این تست نتیجهی ثابتی گرفت. مثلا وقتی از آنها معمای چندتا اردک را پرسیدم، چتجیپیتی بار اول اشتباه جواب داد و گفت ۵ اردک. بارد من را غافلگیر کرد و بهدرستی گفت ۳ اردک. بینگ هم درست جواب داد. اما وقتی دوباره همین سوال را از ChatGPT پرسیدم، درست جواب داد و فرایند استدلالش را نیز برایم توضیح داد.
برای معماهای بعدی نیز وضعیت به همین شکل بود؛ بارد همچنان به پازلها درست پاسخ میداد بهطوری که داشتم به این نتیجه میرسیدم که سر بارد نمیتوان کلاه گذاشت. تااینکه از آنها معمای رولت روسی را پرسیدم که با احتمالات سروکار دارد. اینبار، بینگ و ChatGPT بهدرستی پاسخ دادند (هرچند مدل استدلال بینگ واقعا گیجکننده بود!)، اما درنهایت ناباوری، بارد گفت که اگر گلوله بار اول از هفتتیر خارج نشده، برای افزایش شانس زنده ماندن نباید دوباره چرخانده شود.
درکل، بحث استدلال هوش مصنوعی چند ده سال است ذهن همهی دانشمندان را به خود مشغول کرده؛ من کی باشم که بخواهم دربارهی این موضوع قطعی نظر بدهم!
نتیجهگیری: برنده کدام است؟
من با این تستها سعی کردم تاحدودی نقاط ضعف و قوت بینگ چت، ChatGPT و بارد را نشان دهم؛ هرچند باید این نکته را هم در نظر گرفت که مدلهای زبانی هر لحظه در حال یادگیری و بهبود هستند و احتمالا نتیجهای که با این تستها گرفتم تا چند وقت دیگر درست نباشد!
بااینحال، جایی که به نظرم بارد رقابت را بهراحتی به بینگ و ChatGPT باخت در حوزهی مارکتینگ و زمان انتشار بود. شاید اگر بارد بعد از هیاهوی تبلیغاتی ChatGPT و پیش از بینگ چت منتشر شده بود، میتوانست حرفی برای گفتن داشته باشد؛ آن موقع، قابلیت اتصالش به اینترنت و دسترسی به دادههای بهروز میتوانست مزیتی نسبتبه ChatGPT باشد. اما بارد درحالحاضر بسیار محدودتر از بینگ چت است و ماجرای خطای علمی و سرقت ادبی کاملا به ضررش تمام شد.
درکل، آنچه از این تستها دستگیرم شد این بود که ChatGPT برای متنهای طولانی، کدنویسی و دیباگ بهتر از دو چتبات دیگر عمل میکند. بارد بیشتر از رقبا دچار «هذیانگویی» میشود و بینگ چت از ترس هذیانگویی، مدل جواب دادنش را دقیقا به همان چیزی که ازش خواسته شده، محدود میکند. برای درخواستهای فارسی و کلا جستجو در اینترنت، بینگ چت بهترین گزینه است و البته دسترسی به آن برای کاربرانی ایرانی بسیار سادهتر از دو رقیب دیگر (بارد فعلا فقط برای آیپی آمریکا و انگلیسی در دسترس است.) بینگ همچنین قابلیت تولید تصویر ارائه میدهد که اگرچه به جذابیت Midjourney نیست، در بسیاری از موارد کارراهانداز یا دستکم، سرگرمکننده است.
البته اتفاق هیجانانگیزی در انتظار چتجیپیتی است؛ این چتبات بهطور آزمایشی به پلاگینهایی مجهز شده که قرار است تقریبا تمام محدودیتهایی را که چتباتها با آنها دستوپنجه نرم میکنند، برطرف کند. مثلا یکی از این پلاگینها، اتصال ChatGPT را به اینترنت ممکن میکند تا مشکل قدیمی بودن دادههایش حل شود. پلاگین دیگری که خودم بیصبرانه منتظرش هستم، «ولفرم آلفا» (Wolfram Alpha) است که میتواند به سوالات پیچیدهی ریاضی جواب درست دهد؛ کاری که هیچ چتباتی در حال حاضر نمیتواند انجام دهد. یک سری پلاگین نیز ChatGPT را به پلتفرمهای دیگر متصل میکنند و مثلا اجازه میدهند خود چتبات بهجای کاربر هتل و پرواز رزرو کند! هرچند من احساس خوبی به سپردن تصمیمگیری و انجام کارها به هوش مصنوعی ندارم.
بهنظرم زمانیکه این پلاگینها در دسترس عموم قرار بگیرند، میتوانند ChatGPT را یکسروگردن از دو رقیب دیگر جلو بیندازند، بهطوری که شاید کسی دیگر نخواهد سراغ بینگ و بارد برود. اما خب آن قضیهی «سرریز قابلیت» را هم نباید فراموش کنیم؛ ازکجامعلوم. شاید تا چند وقت دیگر بینگ و بارد نیز قابلیتهای مخفی و جالبی از خود بروز دهند که بتوانند همچنان با ChatGPT رقابت کنند.
شما کدام چتبات را ترجیح میدهید؟