مایلز زیمرمن، برنامهنویس ۳۱ سالهی اهل سان فرانسیسکو، اوایل ماه گذشتهی میلادی مشغول کار با ابزاری هوش مصنوعی به نام Midjourney بود که همچون چند ابزار مشابه دیگر، تصاویر را از روی متن خلق میکند. زیمرمن پس از کار با Midjourney متوجه نکتهای عجیب شد.
یکی از متنهای زیمرمن که با کمک ChatGPT تولید شده بود، جزئیات بسیار زیادی داشت: «عکسی ساده از چند جوان بیستوچند سالهی شاد در سال ۲۰۱۸ که برای بیرون رفتن در شب لباس پوشیدهاند و در یک مهمانی آپارتمانی در شهر از رقصیدن لذت میبرند. عکس توسط نان گلدین با دوربین Fujifilm Instax Mini 9 ثبت شده است.»
در عرض تنها چند ثانیه، Midjourney تصاویری بر اساس جزئیات اعلامشده خلق کرد که چند جوان را در مهمانی نشان میداد. زیمرمن در ابتدا از جزئیات عکس، چهرهها، پوست، مو و لباس شخصیتها حیرتزده شد. حالات چهرهی این شخصیتها دقیقاً مطابق توصیفات مایلز زیمرمن بود.
مایلز زیمرمن به بازفیدنیوز میگوید هر چه عکس را با دقت بیشتری نگاه میکرد، متوجه نکات عجیبتری میشد.
در یکی از این تصاویر (عکس اصلی مقاله)، زنی خوشحال را میبینیم که دوربینی در مقابل خودش گرفته است و قصد دارد با دوستش سلفی بگیرد. در ابتدا همهچیز طبیعی به نظر میرسد، اما وقتی به دستهای زن نگاه کنید متوجه حالتی غیرطبیعی میشوید. یکی دیگر از شخصیتها پنج انگشت داشت، اما انگشتهایش بهطرز غیرطبیعی دراز بودند. همچنین تقریباً در تمامی تصاویر خلقشده، شخصیتها تعداد بیش از حد زیادی دندان داشتند.
زیمرمن تصاویر را در توییتر منتشر کرد و همانطور که میشد انتظار داشت، این تصاویر به سرعت وایرال شدند. او میگوید: «هرچه به تماشا کردن ادامه دادم، نخندیدن به آن دستها و دندانها سختتر میشد.»
در ماههای اخیر، سرویسهایی مثل Midjourney و Stable Diffusion و DALL-E 2 به محبوبیت قابلتوجهی دست پیدا کردهاند. این سرویسها که مبتنیبر فناوری هیجانانگیزی تحت عنوان هوش مصنوعی مولد هستند، از روی متنهای ساده هر عکسی را تولید میکنند. انتشار این ابزارها افزونبر تزریق هیجان به شبکههای اجتماعی، انتقاداتی نیز به دنبال داشته است.
سرویسهای اینچنینی با استفاده از حجم عظیمی از دادهها تعلیم داده میشوند تا ارتباط بین میلیاردها عکس موجود در اینترنت و متنهای توصیفکنندهی آنها را تشخیص دهند. به موجب دسترسی به دادههای پرشمار، این سرویسها «درک میکنند» که کلمهی «سگ» توصیفگر چه نوع حیوانی است. از این عکسها و متنهای توصیفکنندهی آنها بهعنوان «دیتاست» یاد میشود.
آثار هنری خلقشده از طریق هوشهای مصنوعی که بر پایهی دیتاستهای این چنینی تعلیم داده شدهاند هماکنون کاربرد فراوانی دارند. در برخی نمونهها از این تصاویر برای شرکت در مسابقات استفاده شد. همزمان تولیدکنندگان محتوا از تصاویر موردبحث در مقالات و اخبار استفاده میکنند.
با وجود پیشرفت سریع، ابزارهای عکسساز مبتنیبر هوش مصنوعی همچنان نمیتوانند دست انسان را به شیوهای طبیعی خلق کنند. وقتی عبارت «دست انسان» را وارد پیشرفتهترین ابزارهای عکسساز حال حاضر دنیا یعنی Stable Diffusion و DALL-E 2 و Midjourney کنید، با چنین نتایجی مواجه میشوید:
عملکرد ناقص هوشهای مصنوعی در ساخت دست انسان، باعث تولید میمهای جدیدی در شبکههای اجتماعی شده است. برای مثال این نمونه در توییتر به دفعات فراوان دیده شد.
دلیل اینکه ابزارهای هوش مصنوعی تا این حد در ساخت دست انسان با مشکل مواجه میشوند چیست؟ این سؤال را تعداد زیادی از کاربران در شبکههای اجتماعی مطرح کردهاند.
سخنگوی شرکت Stability AI (خالق Stable Diffusion) میگوید: «در تصاویر مربوط به انسان در دیتاستهای هوش مصنوعی، دستها با جزئیات کمتری نسبت به صورت رؤیت میشوند. در تصاویر منبع، دستها همیشه بسیار کوچکتر به نظر میرسند.»
آملیا وینگر-بیرسکین، هنرمند و استادیار هوش مصنوعی در دانشگاه فلوریدا که از پژوهشگران شاختهشدهی سیستمهای هوش مصنوعی مولد محسوب میشود، میگوید: «من کشتهمردهی این سؤالم! ابزارهای هوش مصنوعی مولد که بر اساس میلیاردها عکس استخراجشده از اینترنت تعلیم داده میشوند، معنای «دست» را نمیفهمند، بلکه نحوهی نمایش دستها را در تصاویر شناسایی میکنند. تصاویر معمولا دستها را به هنگام نگهداشتن فنجان قهوه یا هر چیز دیگری بهتصویر میکشند یا گاهی اوقات دو نفر دستهای یکدیگر را گرفتهاند.»
در عکس، نقاشی و اسکرینشاتهایی که ابزارهای هوش مصنوعی بر پایهی آنها تعلیم داده میشوند، ممکن است سوژهی اصلی تصویر میکروفون در دستش نگه داشته باشد. ممکن است دستها به نوعی در عکس ثبت شده باشند که هر پنج انگشت را نتوان دید. همچنین ممکن است سوژهی اصلی تصویر دستش را مشت کرده باشد، در این حالت هیچ انگشتی دیده نمیشود.
وینگر-بیرسکین در حالی که انگشتانش را از هم باز کرده بود به خبرنگار بازفیدنیوز گفت: «کم پیش میآید که در تصاویر، دستها اینچنین دیده شوند. اگر در تمامی تصاویر چنین صحنهای از دست انسان ثبت میشد، هوش مصنوعی میتوانست در تصاویری که خلق میکند، دستها را بهطور دقیق بسازد.» به گفتهی این پژوهشگر، هوش مصنوعی فقط در شرایطی میتواند دستها را به درستی خلق کند که درک مناسبی از سازوکار بدن انسان و نحوهی اتصال انگشتان پیدا کند.
دست در دنیای هنر جایگاهی اساسی دارد. تصاویر خلقشده از دست روی دیوار غارها اولین نمونه از آثار هنری خلقشده به دست انسان خردمند محسوب میشوند. هنرمندان میگویند طراحی دقیق دست در نقاشیها، کار بسیار مشکلی است. در نقاشیهای مربوط به یونان باستان و اروپای قرون وسطی، دست انسان با جزئیات چندان زیادی دیده نمیشود.
نمایش دقیق دست انسان در دوران هنر رنسانس اتفاق افتاد، یعنی زمانی که هنرمندانی مثل لئوناردو داوینچی شروع به مطالعه دربارهی دست کردند. وینگر-بیرسکین میگوید: «داوینچی علاقهی زیادی به دست داشت و مطالعات بسیار زیادی روی این عضو از بدن انسان انجام داد.»
استادیار دانشگاه فلوریدا میگوید در آیندهای نهچندان دور، ابزارهای هوش مصنوعی مولد پیشرفت قابلتوجهی تجربه میکنند تا جزئیات دست، پا و دندان را با دقت بسیار بالا بهنمایش بگذارند: «این اتفاق باید رخ دهد. هوش مصنوعی در صورتی به ابزاری مفید برای انسان تبدیل میشود که انسانبودن را درک کند.»