لی اونکریچ یکی از برجستهترین انیماتورهای شرکت پیکسار را در کلاس هفتم تصور کنید. او به تصویری از یک لوکوموتیو قطار روی صفحهی نمایش اولین کامپیوتر مدرسهی خود خیره شده است. او شگفتزده است. بااینحال وقتی متوجه میشود تصویر روبهرویش صرفا با درخواست «تصویر یک قطار» ظاهر نشده و فرآیند دشوار کدنویسی و سختکوشی انسان پشت آن قرار دارد، کمی از تعجبش کاسته میشود.
حالا لی را ۴۳ سال بعد تصور کنید که با هوش مصنوعی DALL-E روبهرو میشود که آثار هنری را بر اساس دستورهای انسان ترسیم میکند. دستورهایی که میتوانند بهسادگی عبارت «تصویر یک قطار» او با تایپ کلمات برای تولید تصاویر متعدد شگفتزده میشود و این بار با خود میگوید: «این شبیه یک معجزه است. وقتی نتایج ظاهر شدند، نفس در سینه حبس شد و اشک از چشمهایم جاری شد. این جادویی است.»
ماشینها از یک آستانهی مشخص عبور کردهاند. در کل عمرمان با اطمینان میگفتیم کامپیوترها نمیتوانند خلاق باشند؛ اما امروزه ناگهان میلیونها نفر از نوع جدید هوش مصنوعی برای تولید تصاویر چشمگیر و بیسابقه استفاده میکنند. اغلب این کاربرها مانند لی اونکریچ، هنرمندان حرفهای نیستند و همین نکتهی اصلی ماجرا است: آنها لزوما نباید هنرمند حرفهای باشند.
همه نمیتوانند یک انیمیشن برندهی اسکار مثل داستان اسباببازی ۳ یا کوکو (Coco) را بنویسند، کارگردانی یا ویرایش کنند اما همه میتوانند ایدهی خود را در یک مولد تصویر هوش مصنوعی تایپ کنند. چیزی که روی صفحهی نمایش ظاهر میشود ازنظر واقعگرایی و جزئیات، شگفتانگیز است و شگفتی دنیا را به دنبال دارد. امروز انسانها با چهار سرویس شامل میدجورنی (Midjourney)، استیبل دیفیوژن (Stable Diffusion)، آرت بریدر (Artbreeder) و DALL-E، میتوانند روزانه ۲۰ میلیون تصویر بسازند. هوش مصنوعی با قلممویی در دست به یک موتور شگفتیساز تبدیل شده است.
از آنجا که این هوشهای مصنوعی شگفتیساز، هنر خود را از میلیاردها تصویر ساختهشده به دست انسان یاد گرفتند، خروجی آنها تصاویر قابل پیشبینی و قابل انتظار هستند؛ اما از طرفی حتی برای سازندگانشان هم عجیب هستند چرا که تصاویری جدید را به شیوهای بیسابقه با جزئیات فراوان پر میکنند. میتوان به آنها دستور داد انواع متنوعی از تصاویر را به سبک دلخواه تنها در چند ثانیه تولید کنند. درواقع این بزرگترین مزیت آنها است: میتوانند آثار جدید را به شکلی مرتبط و قابل درک و در عین حال غیرمنتظره تولید کنند.
این تصاویرساختهشده با هوش مصنوعی بهقدری غیرمنتظره هستند که علاوه بر شگفتی، پرسش دیگری را مطرح میکنند: هنر ساختهشده به دست انسان به پایان رسیده است. چه کسی میتواند با این سرعت، هزینهی کم، مقیاس و البته خلاقیت بالای ماشینها رقابت کند؟ آیا هنر حوزهی دیگری است که باید به رباتها سپرده شود؟ و البته پرسش واضح دیگری مطرح میشود: اگر کامپیوترها بتوانند خلاق باشند، دیگر چه کارهایی را میتوانند انجام دهند که فکرش را نمیکنیم؟
کوین کلی، نویسندهی اصلی این مقاله در wired، شش ماه گذشته را صرف ساخت هزاران تصویر جذاب با هوش مصنوعی کرد تا بتواند به زیبایی پنهان در کدها پی ببرد. او پس از مصاحبه با سازندگان، کاربران و همچنین دیگر هواداران این مولدهای مصنوعی، به پیشبینی بسیار واضحی رسید: هوش مصنوعی مولد (Generative AI) چگونگی طراحی همهچیز را تغییر خواهد داد؛ و البته هیچکدام از هنرمندان انسانی شغل خود را به خاطر این فناوری جدید از دست نخواهند داد.
اغراق نیست اگر تصاویر تولیدشده به کمک هوش مصنوعی را «همآفرینی» بنامیم. راز این قدرت عجیب نهتنها نتیجهی تایپ یک دستور بلکه حاصل گفتگوهای بسیار طولانی بین انسان و ماشین است. روند هر تصویر از تعداد بسیار زیادی تکرار، تغییر و ساعتها و حتی گاهی روزها کار تیمی سرچشمه میگیرد که همگی حاصل سالها پیشرفت در حوزهی یادگیری ماشین هستند.
مولدهای تصویر هوش مصنوعی حاصل ازدواج دو فناوری کاملا مجزا هستند. یک فناوری خط تاریخی شبکههای عصبی یادگیری عمیق است که میتواند تصاویر واقعگرا و منسجمی را تولید کند و دیگری مدل زبان طبیعی است که میتواند بهعنوان واسطهای برای موتور تصویرسازی عمل کند. این دو فناوری به شکل یک مولد تصویر مبتنی بر زبان ترکیب شدهاند. پژوهشگرها اینترنت را در جستجوی تمام تصاویری که دارای متن همراه مثل کپشن هستند بررسی کردند و از میلیاردها نمونه برای اتصال شکلهای بصری به کلمات و کلمات به فرمها استفاده کردند. با این ترکیب جدید، کاربران انسانی میتوانند رشتهای از کلمات موسوم به دستور را وارد کنند که توصیفی از یک تصویر است و آن دستور بر اساس کلمات واردشده، تصویری را تولید میکند.
دانشمندان امروزه در گوگل مدلهای محاسباتی توزیعی را ابداع کردهاند که هستهی مولدهای تصویر کنونی هستند اما این شرکت بیشتر نگران کارهایی است که مردم ممکن است با این مولدها انجام دهند. به همین دلیل هنوز از مولدهای آزمایشی Imagen و Parti برای عموم رونمایی نکردند (تنها کارمندان میتوانند آنها را بر اساس راهبردهای سفت و سخت آزمایش کنند). تصادفی نیست که سه عدد از محبوبترین پلتفرمهای مولد تصویر از سه استارتاپی سرچشمه میگیرند که هیچ میراثی برای محافظت ندارند.
میدجورنی یک بوتاسترپینگ استارتاپ است که توسط دیوید هولز تأسیس شد. این مولد تصویر، مبتنی بر جامعهی نوظهوری از هنرمندان است. واسطهی هوش مصنوعی یک سرور شلوغ Discord است؛ کل کارها و دستورها از ابتدا عمومی شدند. DALL-E محصول نسل دوم شرکت غیرانتفاعی OpenAI است که توسط ایلان ماسک و چند تن دیگر تأسیس شد. استیبل دیفیوژن (Stable Diffusion) هم که توسط عماد موستاک، کارآفرین اروپایی تأسیس شد در آگوست ۲۰۲۲ به صحنه آمد. این استارتاپ یک پروژهی متنباز است و هر شخصی میتواند نرمافزار آن را دانلود کند.
چرا بسیاری از افراد برای کار با این نوع هوش مصنوعی هیجانزدهاند؟ بسیاری از تصاویر به همان دلیل ایجاد میشوند که انسانها همیشه هنر را خلق میکردند: تصاویر زیبا هستند و از دیدن آنها لذت میبریم؛ مانند شعلههای آتش، الگوهای نوری چشمگیر هستند و هرگز خود را تکرار نمیکنند. این تصاویر چشماندازهایی را نشان میدهند که قبلا دیده یا حتی تصور نشدند و با ترکیببندی حرفهای ساخته میشوند.
دیدن این تصاویر مانند لذت بردن از اکتشاف در دنیای بازیهای ویدئویی یا ورق زدن کتابهای هنری است. یک زیبایی واقعی در خلاقیت آنها نهفته است و درست مانند دیدن یک اثر زیبای هنر در موزه به آنها نگاه میکنیم. در واقع، دیدن مجموعهای از تصاویر تولیدشده درست مانند بازدید از یک موزهی شخصی است اما این بار دیوارها پر از آثار هنری میشوند که خودمان درخواست کردیم. تازگی ابدی و شگفتی تصویر بعدی بهندرت کاهش مییابد. کاربرها میتوانند آثار خود را به اشتراک بگذارند اما یک انسان نمیتواند ۹۹ درصد از ۲۰ میلیون تصویری را که روزانه تولید میشوند ببیند.
تصاویر هم مانند بسیاری از آثار هنری میتوانند شفابخش باشند. مردم درست به همان دلیلی که روزهای تعطیل نقاشی میکنند یا در مجلهای خطخطی میکنند یا فیلمی را ضبط میکنند، برای تصاویر عجیب هوش مصنوعی وقت میگذارند. آنها از این رسانهها برای رسیدن به درکی در زندگی خود استفاده میکنند که به طریق دیگر نمیتوانند به آن برسند.
برای مثال برخی تصاویر، بهشت جانوران را در واکنش به مرگ یک سگ محبوب نشان میدهند. بسیاری از تصاویر کاوشی در بازنمایی حوزههای معنوی هستند. به عقیدهی هولز، سازندهی میدجورنی، بخش زیادی از کاربرد کلی این ابزار به هنر درمانی اشاره دارد. تصاویر هوش مصنوعی نهتنها از لحاظ زیباشناسی بلکه از لحاظ معنایی هم جذاب هستند. از ماشینها میتوان برای تولید انواع تصاویر فانتزی استفاده کرد. گرچه سرویسهای میزبان از ساخت محتوای غیراخلاقی جلوگیری میکنند.
تصاویرساخته شده با هوش مصنوعی همچنین ممکن است کاربردی باشند. برای مثال فرض کنید گزارشی را دربارهی احتمال بازیافت ضایعات پلاستیکی بیمارستانی و تبدیل آنها به مواد ساخت و ساز ارائه میکنید و به دنبال تصویری از یک خانه هستید که با لولههای تست ایجاد شده است. میتوانید بازارهای عکس استوک را برای تصاویر کاربردی هنرمندان انسانی جستجو کنید؛ اما برای یک تکلیف منحصربهفرد این چنینی بهندرت میتوانید تصویری را پیدا کنید و حتی اگر پیدا کنید یا مشکل کپیرایت دارد یا گرانقیمت است؛ بنابراین میتوانید تنها در چند دقیقه تصویری منحصربهفرد را برای گزارش خود بسازید و از این تصویر در اسلایدها، خبرنامه یا وبلاگ خود استفاده کنید چرا که کپیرایت آن متعلق به شما است.
براساس آماری غیررسمی، کاربران تقریبا ۴۰ درصد از زمان خود را صرف جستجوی تصاویر کاربردی میکنند. اغلب تصاویر هوش مصنوعی معمولا در جاهایی به کار میروند که قبلا هیچ تصویری نداشتند. این تصاویر جایگزین تصاویر هنرمندان انسانی نیستند؛ اما برای مثال شخصی که خود استعداد هنری یا زمان و بودجهی کافی را برای خلق آثار هنری ندارد میتواند از این تصاویر برای خبرنامهای تمام متنی استفاده کند. همانطور که عکاسی مکانیکی در حدود یک قرن پیش باعث از بین رفتن تصویرسازیهای انسانی نشد، بلکه برعکس باعث توسعهی حوزههای کاربردی شد، مولدهای تصویر هوش مصنوعی هم به گسترش هنر کمک خواهند کرد نه کمتر. در آینده شاهد کاربرد این تصاویر در فضاهایی خالی مثل ایمیلها، پیغامهای متنی، وبلاگها، کتابها و شبکههای اجتماعی خواهیم بود.
این هنر جدید درست در نقطهای بین نقاشی و عکاسی قرار میگیرد. همچنین در فضایی به بزرگی نقاشی و طراحی و به عظمت خیالپردازی انسان به بقای خود ادامه میدهد. با تغییر دستورها میتوانید به نقطهای برسید که هیچکس تاکنون نرسیده است. این قلمرو میتواند یک سوژه، حالت روحی روانی یا سبکی باشد که ارزش ارجاع را دارد. هنر وسیلهای برای یافتن حوزههای جدید است. وقتی عکاسی برای اولین بار ظاهر شد، به نظر میرسید که تمام عکاسها تنها با فشار دادن یک دکمه به هدف خود میرسند. همین تصور برای افرادی که با هوش مصنوعی کار میکنند وجود دارند. در هر دو نمونه، خروجی یک تصویر است؛ اما رسیدن به تصویری هنری مسئلهای کاملا متفاوت است.
سن مولدهای تصویر هوش مصنوعی در دسترس، حتی به یک سال هم نرسیده اما واضح است که برخی افراد نسبت به برخی دیگر در تولید تصاویر هوش مصنوعی عملکرد بهتری دارند. گرچه هر دو گروه از یک برنامه استفاده میکنند، افرادی که ساعتهای بیشتری را صرف کار با این الگوریتمها کردهاند میتوانند تصاویری بسیار بهتری را تولید کنند. تصاویر این اساتید دارای انسجام و جسارت بصری هستند که معمولا با جزئیات زیاد هوش مصنوعی همراه هستند. کار تیمی پشت این نتیجه است؛ هنرمند انسانی و هنرمند ماشینی هماهنگ عمل میکنند. این کار نهتنها نیاز به تجربه دارد بلکه برای تولید یک تصویر موفق باید زمان صرف کنید.
گویا طیفی برای هوش مصنوعی وجود دارد. یک طرف طیف شگفتی کامل و سمت دیگر اطاعت حداکثری است. بهسادگی میتوان با هوش مصنوعی شگفتزده شد؛ اما بهسختی میتوانید کاری کنید که کاملا از شما اطاعت کند. به باور مایرو کلینگمان که NFT آثار تولیدشده با هوش مصنوعی را میفروشد، اگر تصویر بسیار خاصی را در ذهن داشته باشید، مانند این است که در برابر نیرویی عظیم قرار دارید. هوش مصنوعی با اکراه از دستورهایی مثل سایهزنی یک نقطه، بهبود یک نقطه یا پائین آوردن سایههای یک نقطه اطاعت میکند. هوش مصنوعی باید به این کار ترغیب شود.
نسخههای فعلی DALL-E، استیبل دیفیوژن و میدجورنی دستورها را تقریبا به اندازهی یک توییت طولانی محدود میکنند. اگر کلمات و جملات طولانیتری کنار یکدیگر قرار داشته شوند، تصویر بینظمتر خواهد شد. در واقع پشت هر تصویر شگفتانگیزی، دستوری سحرآمیز قرار دارد. کار با اولین دستور جادویی آغاز میشود. چگونگی گفتن آن اهمیت دارد. نتایج آنی در مجموعهای شامل چهار تا نه تصویر ظاهر میشوند. از مجموعهی تصاویر میتوانید تصاویر حاصل را ایجاد کنید.
برای رسیدن به تصویر ایدهآل لازم است مانند هوش مصنوعی فکر کنید: دستورالعملها را به دستور خود اضافه کنید. با تکرار به کار خود ادامه دهید. کلمات را برای دیدن نتایج جدید تغییر دهید. سپس از میان تصاویر ایجاد شده، تعداد کمی را انتخاب کنید. پشت این جادو، هنر برانگیختن قرار دارد. هر هنرمند یا طراح روش خود را برای برانگیختن هوش مصنوعی دارد. این هنرمندان مانند کارگردانهایی، هوش مصنوعی را به چشماندازی منحصربهفرد هدایت میکنند.
PromptBase بازاری برای دستوردهندگان است که دستورات منتهی به تصاویر ساده مثل لوگوها، آیکونها، آواتارها و سلاح گیم را بفروشند. در این وبسایت بهجای فروختن اثر هنری، فرمان یا دستوری را که به اثر هنری میانجامد میفروشید؛ و برخلاف کلیپآرت ثابت، بهراحتی میتوان اثر بهدستآمده را بر اساس نیازها تغییر داد و به نسخههای متعددی از آنها رسید. اغلب این دستورها به قیمت عادلانهای فروخته میشوند.
دستورهای فوق متوسط نهتنها دارای سوژه هستند بلکه نورپردازی، زاویهی دید، احساسات، پالت رنگی، میزان انتزاع و حتی شاید مرجع تصویری را توصیف میکنند. به دلایل فنی، حتی با تکرار یک دستور یکسان بعید است به خروجی یکسانی برسید. یک هستهی تصادفی برای هر تصویر وجود دارد که بدون آن از نظر آماری نمیتوان یک کپی را تولید کرد. علاوه بر این دستور یکسانی که وارد موتورهای هوش مصنوعی مختلف میشود، تصاویر متفاوتی را تولید میکند. برای مثال تصاویر میدجورنی به نقاشی نزدیکتر هستند در حالی که تصاویر DALL-E به عکاسی واقعی شباهت دارند. با اینحال دستوردهندگان نمیخواهند رازهای خود را برملا کنند.
بهنظر واضح میرسد که دستوردهندگان هنر واقعی را تولید میکنند. آیا کارگردانهای فیلم مثل هیچکاک یا کوروساوا چیزی بهجز دستوردهنده به بازیگرها، کارها، صحنهها یا ایدهها هستند؟ دستوردهندگان مولد تصویر هم در کار مشابهی دخالت دارند و بنابراین عجیب نیست که تولیدهای خود را در گالریهای هنری بفروشند یا حتی آنها را به رقابتهای هنری وارد کنند. تابستان ۲۰۲۲، جو آلن به خاطر بوم بزرگی با فضای اپرا که با امضای جو آلن از طریق میدجورنی همراه بود برندهی جایزهی اول هنر دیجیتال در رقابت کلرادو استیت فیر فاین آرت شد.
معمولا تصاویر دستهی هنر دیجیتال با استفاده از ابزارهایی مثل بلندر یا فتوشاپ ایجاد میشوند که به هنرمندان اجازه میدهند به کتابخانههایی از اشیای دیجیتالی و بافتها دسترسی پیدا کنند که بعدا همراه با یکدیگر کولاژ میشوند و یک چشمانداز را میسازند. این تصاویر دیجیتالی در واقع مونتاژهای تکنولوژی هستند. کولاژها هنر قابل احترامی هستند و استفاده از هوش مصنوعی برای ساخت کولاژ یک تکامل طبیعی است. به باور آلن، اگر کولاژ با رندر سهبعدی هنر است پس تصویر میدجورنی هم هنر است.
البته هنر آلن هشداردهنده است. به عقیدهی برخی از منتقدان، این هنر علامت پایان یک دوره، پایان هنر یا پایان هنرمند انسانی است. سوگواریها قابل پیشبینی هستند چرا که بسیاری بر بیعدالتی این روند برای هنرمندان واقعی اشاره میکنند. هوش مصنوعی نه تنها بر ما غلبه میکند و ما را میکشد بلکه بهترین هنر دنیا را هم تولید میکند. هر فناوری جدیدی در آستانهی تولد خود، یک چرخهی وحشت فناوری را به دنبال دارد که دارای هفت فاز است:
- من را با این چرت و پرتها آزار نده. این فناوری هرگز نتیجهبخش نخواهد بود.
- خیلی خوب، در حال وقوع است اما خطرناک است زیرا خوب کار نمیکند.
- صبر کن، خیلی خوب کار میکند. باید مانع آن شویم. کاری کن.
- این فناوری به قدرتی قدرتمند است که ناعادلانه است برخی به آن دسترسی نداشته باشند.
- حالا این فناوری همهجا است و راهی برای فرار از آن وجود ندارد. عادلانه نیست.
- تسلیم میشوم. حداقل برای یک ماه.
- بگذار بر مشکل واقعی تمرکز کنیم که فناوری نسل بعدی است.
امروزه در نمونهی مولدهای تصویر هوش مصنوعی، مجموعهای از هنرمندان نوظهور دوستدار فناوری و عکاسان بهخوبی از ترس مرحلهی ۳ عبور میکنند. از طرفی برخی افراد میترسند شغل خود را از دست بدهند. برای مثال Getty Images، یکی از شرکتهای پیشتاز در فروش عکسهای خام و تصویرسازیهای مربوط به طراحی، تصاویر تولیدشده با هوش مصنوعی را ممنوع کرده است. هنرمندان مشخصی که آثار خود را در DeviantArt پست میکنند هم خواستار ممنوعیت مشابهی شدند. همچنین تقاضاهایی برای تفکیک هنر هوش مصنوعی از هنر واقعی دیده میشود.
علاوهبراین برخی هنرمندان خواستار بیمههایی هستند که هنرشان برای آموزش هوش مصنوعی به کار نرود؛ اما این هم ترس سطح سه است که به دلیل درک نادرست به وجود میآید. الگوریتمها معمولا در معرض ۶ میلیارد تصویر همراه با متن قرار میگیرند. اگر هنرمند تأثیرگذاری نباشید، حذف کار شما تأثیر چندانی در نتیجه به وجود نخواهد آورد. تصویر به وجود آمده با یا بدون تصویر شما ظاهر تقریبا یکسانی خواهد داشت؛ اما اگر هنرمند تأثیرگذار و معروفی باشد هم باز حذف عکستان تأثیر چندانی نخواهد داشت؛ زیرا سبک شما بر کارهای دیگران تأثیر میگذارد و حتی اگر تصاویرتان حذف شود، تأثیر شما باقی خواهد ماند. برای مثال فرض کنید کل نقاشیهای ونگوگ از یک مجموعهی آموزشی حذف شود. باز هم سبک ونگوگ در میان انبوه تصاویر ایجادشده توسط افرادی که از این هنرمند تقلید کردهاند، وجود دارد.
در سالهای پیش رو، موتور محاسباتی مولدهای تصویر هوش مصنوعی توسعه و بهبود خواهند یافت بهطوریکه درنهایت به گرهی مرکزی کارهای بصری تبدیل میشوند. این مولدها درنهایت همهچیز را میبینند و تمام سبکها را میشناسند و میتوانند کاملا منطبق با نیاز کاربرها آثاری را تولید کنند؛ بنابراین به یک موتور جستجو یا دایرهالمعارف بصری تبدیل میشوند که از آن برای درک تصاویر استفاده میکنیم.
امروزه هر الگوریتم شبکهی عصبی که در هوش مصنوعی وجود دارد به انبوه وسیعی از دادهها وابسته است و برای آموزش آن نیاز به میلیاردها تصویر است؛ اما در دههی آینده شاهد هوش مصنوعی عملیاتی خواهیم بود که به تعداد کمتری از نمونهها شاید به اندازهی ۱۰ هزار نمونه برای یادگیری وابسته است. همچنین مولدهای تصویر هوش مصنوعی قدرتمند را با نمایش هزاران تصویر منتخب برای نقاشی کردن آموزش میدهیم. روزی خواهد رسید که هنرمندان با انواع سوابق مختلف برای قرار گرفتن آثار خود در مجموعهی یادگیری هوش مصنوعی رقابت میکنند. اگر هنرمندی در مخزن اصلی یادگیری باشد، تأثیرگذاری بیشتری خواهد داشت.
با تولد الگوریتمهای مولد دوبعدی، آزمایشگرها به این فکر کردند که گام بعدی چه میتواند باشد. جنسن هوانگ، همبنیانگذار بلندپرواز انویدیا معتقد است نسل بعدی تراشهها دنیاهای سهبعدی متاورسی را میسازند که وی آن را «پلتفرم رایانشی بعدی» مینامد. در همین سپتامبر گذشته تنها در یک هفته، سه مولد تصویر و ویدئویی جدید تبدیل متن به 3D معرفی شدند: GET3D از انویدیا، Make A Video از متا و DreamFusion از گوگل. این گسترش بسیار سریعتر از حد تصور در حال رخ دادن است.
دستور آیندهی موتور سهبعدی میتواند چنین چیزی باشد: «اتاق بینظم یک نوجوان را بساز بهطوریکه پوسترهایی روی دیوار قرار دارند و نور خورشید بعدازظهر از میان کرکرهها به داخل تابیده است.» و تنها در چند ثانیه یک اتاق کاملا سهبعدی متولد میشود که درهای کمد باز هستند و تمام لباسهای کثیف روی زمین ریختهاند. یا میتوان به هوش مصنوعی گفت: «آشپزخانهای به سبک دههی ۱۹۷۰ بساز که تمام جعبههای غلات صبحانه در آن قرار دارند و بتوان در آن قدم زد.»
بدینترتیب هوش مصنوعی بازیها، متاورسها و فیلمهایی را تولید خواهد کرد. دنیایی را فرض کنید که در آن میلیونها آماتور در حال ساخت فیلمها و متاورسهایی در خانهی خود هستند. آنها با نبوغ بومی خود میتوانند ژانرهای جدید رسانهای، توریسم مجازی یا میمهای فضایی را بسازند؛ و هنگامی که نهادها و شرکتهای حرفهای به این ابزار مجهز شوند شاهد تولید شاهکارهایی در سطحی پیچیده هستیم که قبلا هرگز ندیدهایم.
ابزارهایی مثل DALL-E، میدجورنی و استیبل دیفیوژن تنها نسخههای اولیهی ماشینهای مولد هستند. تفکر انسان بسیار پیچیدهتر از تشخیص الگوها است. البته مغز انسان دارای دهها کارکرد شناختی است؛ اما این نوع مستقل از شناخت که با ماشینها ترکیب شده است فراتر از تصور اولیه است. وقتی هوش مصنوعی الگویی را میبیند آن را به شیوهای فشرده ذخیره میکند.
اشیای مدور در جهتی مدور و اشیای قرمز به دلیل قرمزی در مسیری دیگر قرار میگیرند. هوش مصنوعی تمام این مسیرهای دیده شده را به الگوی کلمات ربط میدهد که در ویژگیهایی مشترک هستند؛ بنابراین وقتی انسانی تصویر یک سیب را از طریق نوشتن کلمهی «apple» درخواست میکند، هوش مصنوعی تصویر را با چهار ویژگی رسم میکند. در واقع بخشهایی از تصاویر موجود را مونتاژ نمیکند بلکه تصویری جدید را با ویژگیهای مناسب تصور میکند.
از همین تکنیک میتوان برای یافتن داروهای جدید استفاده کرد. هوش مصنوعی بر اساس پایگاهدادهای از تمام مولکولهایی که برای ساخت دارو به کار میروند آموزش میبیند و به الگوی موجود در ساختار شیمیایی آنها نگاه میکند. سپس از هوش مصنوعی خواسته میشود مولکولها را به خاطر بسپارد یا مولکولهایی را تصور کند که هرگز مشابه مولکولهای موجود نیستند. به طرز شگفتانگیزی برخی از آنها نتیجهبخش خواهند بود. این یک تحول واقعی است و خیلی زود میتوان از همین روش برای طراحی خودروها، پیشنویس قوانین، نوشتن کد، آهنگسازی، گردآوردن کلمات و همآفرینی کالاهای اثربخش استفاده کرد.
دربارهی مولدهای هوش مصنوعی میتوان گفت این ابزار شریکهای خوبی هستند. کابوس غلبهی کامل هوش مصنوعی بر انسان رخ نخواهد داد. این چشمانداز درواقع به معنی سوءبرداشت از تاریخ است. در گذشته فناوری بهندرت توانسته جای انسان را پر کند. برای مثال تولید خودکار تصاویر با استفاده از ماشینی به نام دوربین در سدهی ۱۸۰۰ میلادی ترسی را از خود بهجا گذاشت و نقاشان پرتره تصور میکردند شغل خود را برای همیشه از دست خواهند داد؛ اما هانس روسنبوم مورخ، تنها یک نقاش پرتره را پیدا کرد که احساس میکرد به دلیل ظهور عکاسی بیکار میشود
عکاسی در واقع باعث تجدید حیات نقاشی در آن نسل شد. در زمان نزدیک به زمان حال، همچنین انتظار میرفت عکاسها شغل خود را به دلیل ظهور گوشیهای هوشمند از دست بدهند و با توجه به ۹۵ میلیون آپلود تصویر روزانه در اینستاگرام همه عکاس شوند. بااینحال تعداد عکاسهای حرفهای در ایالات متحده از ۱۶۰ هزار نفر در سال ۲۰۰۲ (پیش از ظهور گوشیهای دوربیندار) به ۲۳۰ هزار نفر در سال ۲۰۲۱ رسید.
بهجای ترسیدن از هوش مصنوعی بهتر است به این فکر کنیم که چه چیزهایی را میتوانیم از این فناوری یاد بگیریم. مهمترین درسی که مولدهای تصویر هوش مصنوعی به ما میدهند این است: خلاقیت نیرویی مافوق طبیعی نیست. بلکه چیزی است که میتوان آن را ترکیب، تقویت و دستکاری کرد. برای رسیدن به تفکر خلاق نیازی به هوش ندارید. خلاقیت بیشتر از آنچه فکر کنید بنیادی و مستقل از آگاهی است. میتوانید خلاقیت را در یک شبکهی عصبی یادگیری عمیق تولید کنید. دادههای انبوه به همراه الگوریتمهای تشخیص الگو برای رسیدن به فرآیندی شگفتانگیز کافی هستند.