پلاس وی
2 سال پیش / خواندن دقیقه

هنر تولیدشده با هوش مصنوعی چه معنایی برای خلاقیت انسان دارد؟

هنر تولیدشده با هوش مصنوعی چه معنایی برای خلاقیت انسان دارد؟

لی اونکریچ یکی از برجسته‌ترین انیماتورهای شرکت پیکسار را در کلاس هفتم تصور کنید. او به تصویری از یک لوکوموتیو قطار روی صفحه‌ی نمایش اولین کامپیوتر مدرسه‌ی خود خیره شده است. او شگفت‌زده است. بااین‌حال وقتی متوجه می‌شود تصویر روبه‌رویش صرفا با درخواست «تصویر یک قطار» ظاهر نشده و فرآیند دشوار کدنویسی و سخت‌کوشی انسان پشت آن قرار دارد، کمی از تعجبش کاسته می‌شود.

حالا لی را ۴۳ سال بعد تصور کنید که با هوش مصنوعی DALL-E روبه‌رو می‌شود که آثار هنری را بر اساس دستورهای انسان ترسیم می‌کند. دستورهایی که می‌توانند به‌سادگی عبارت «تصویر یک قطار» او با تایپ کلمات برای تولید تصاویر متعدد شگفت‌زده می‌شود و این بار با خود می‌گوید: «این شبیه یک معجزه است. وقتی نتایج ظاهر شدند، نفس در سینه حبس شد و اشک از چشم‌هایم جاری شد. این جادویی است.»

ماشین‌ها از یک آستانه‌ی مشخص عبور کرده‌اند. در کل عمرمان با اطمینان می‌گفتیم کامپیوترها نمی‌توانند خلاق باشند؛ اما امروزه ناگهان میلیون‌ها نفر از نوع جدید هوش مصنوعی برای تولید تصاویر چشمگیر و بی‌سابقه استفاده می‌کنند. اغلب این کاربرها مانند لی اونکریچ، هنرمندان حرفه‌ای نیستند و همین نکته‌ی اصلی ماجرا است: آن‌ها لزوما نباید هنرمند حرفه‌ای باشند.

همه نمی‌توانند یک انیمیشن برنده‌ی اسکار مثل داستان اسباب‌بازی ۳ یا کوکو (Coco) را بنویسند، کارگردانی یا ویرایش کنند اما همه می‌توانند ایده‌ی خود را در یک مولد تصویر هوش مصنوعی تایپ کنند. چیزی که روی صفحه‌ی نمایش ظاهر می‌شود ازنظر واقع‌گرایی و جزئیات، شگفت‌انگیز است و شگفتی دنیا را به دنبال دارد. امروز انسان‌ها با چهار سرویس شامل میدجورنی (Midjourney)، استیبل دیفیوژن (Stable Diffusion)، آرت بریدر (Artbreeder) و DALL-E، می‌توانند روزانه ۲۰ میلیون تصویر بسازند. هوش مصنوعی با قلم‌مویی در دست به یک موتور شگفتی‌ساز تبدیل شده است.

از آنجا که این هوش‌های مصنوعی شگفتی‌ساز، هنر خود را از میلیاردها تصویر ساخته‌شده به دست انسان یاد گرفتند، خروجی آن‌ها تصاویر قابل پیش‌بینی و قابل انتظار هستند؛ اما از طرفی حتی برای سازندگانشان هم عجیب هستند چرا که تصاویری جدید را به شیوه‌ای بی‌سابقه با جزئیات فراوان پر می‌کنند. می‌توان به آن‌ها دستور داد انواع متنوعی از تصاویر را به سبک دلخواه تنها در چند ثانیه تولید کنند. درواقع این بزرگ‌ترین مزیت آن‌ها است: می‌توانند آثار جدید را به شکلی مرتبط و قابل درک و در عین حال غیرمنتظره تولید کنند.

این تصاویرساخته‌شده با هوش مصنوعی به‌قدری غیرمنتظره هستند که علاوه بر شگفتی، پرسش دیگری را مطرح می‌کنند: هنر ساخته‌شده به دست انسان به پایان رسیده است. چه کسی می‌تواند با این سرعت، هزینه‌ی کم، مقیاس و البته خلاقیت بالای ماشین‌ها رقابت کند؟ آیا هنر حوزه‌ی دیگری است که باید به ربات‌ها سپرده شود؟ و البته پرسش واضح دیگری مطرح می‌شود: اگر کامپیوترها بتوانند خلاق باشند، دیگر چه کارهایی را می‌توانند انجام دهند که فکرش را نمی‌کنیم؟

کوین کلی، نویسنده‌ی اصلی این مقاله در wired، شش ماه گذشته را صرف ساخت هزاران تصویر جذاب با هوش مصنوعی کرد تا بتواند به زیبایی پنهان در کدها پی ببرد. او پس از مصاحبه با سازندگان، کاربران و همچنین دیگر هواداران این مولدهای مصنوعی، به پیش‌بینی بسیار واضحی رسید: هوش مصنوعی مولد (Generative AI) چگونگی طراحی همه‌چیز را تغییر خواهد داد؛ و البته هیچ‌کدام از هنرمندان انسانی شغل خود را به خاطر این فناوری جدید از دست نخواهند داد.

اغراق نیست اگر تصاویر تولید‌شده به کمک هوش مصنوعی را «هم‌آفرینی» بنامیم. راز این قدرت عجیب نه‌تنها نتیجه‌ی تایپ یک دستور بلکه حاصل گفتگوهای بسیار طولانی بین انسان و ماشین است. روند هر تصویر از تعداد بسیار زیادی تکرار، تغییر و ساعت‌ها و حتی گاهی روزها کار تیمی سرچشمه می‌گیرد که همگی حاصل سال‌ها پیشرفت در حوزه‌ی یادگیری ماشین هستند.

مولدهای تصویر هوش مصنوعی حاصل ازدواج دو فناوری کاملا مجزا هستند. یک فناوری خط تاریخی شبکه‌های عصبی یادگیری عمیق است که می‌تواند تصاویر واقع‌گرا و منسجمی را تولید کند و دیگری مدل زبان طبیعی است که می‌تواند به‌عنوان واسطه‌ای برای موتور تصویرسازی عمل کند. این دو فناوری به شکل یک مولد تصویر مبتنی بر زبان ترکیب شده‌اند. پژوهشگرها اینترنت را در جستجوی تمام تصاویری که دارای متن همراه مثل کپشن هستند بررسی کردند و از میلیاردها نمونه برای اتصال شکل‌های بصری به کلمات و کلمات به فرم‌ها استفاده کردند. با این ترکیب جدید، کاربران انسانی می‌توانند رشته‌ای از کلمات موسوم به دستور را وارد کنند که توصیفی از یک تصویر است و آن دستور بر اساس کلمات واردشده، تصویری را تولید می‌کند.

دانشمندان امروزه در گوگل مدل‌های محاسباتی توزیعی را ابداع کرده‌اند که هسته‌ی مولدهای تصویر کنونی هستند اما این شرکت بیشتر نگران کارهایی است که مردم ممکن است با این مولدها انجام دهند. به همین دلیل هنوز از مولدهای آزمایشی Imagen و Parti برای عموم رونمایی نکردند (تنها کارمندان می‌توانند آن‌ها را بر اساس راهبردهای سفت و سخت آزمایش کنند). تصادفی نیست که سه عدد از محبوب‌ترین پلتفرم‌های مولد تصویر از سه استارتاپی سرچشمه می‌گیرند که هیچ میراثی برای محافظت ندارند.

میدجورنی یک بوت‌استرپینگ استارتاپ است که توسط دیوید هولز تأسیس شد. این مولد تصویر، مبتنی بر جامعه‌ی نوظهوری از هنرمندان است. واسطه‌ی هوش مصنوعی یک سرور شلوغ Discord است؛ کل کارها و دستورها از ابتدا عمومی شدند. DALL-E محصول نسل دوم شرکت غیرانتفاعی OpenAI است که توسط ایلان ماسک و چند تن دیگر تأسیس شد. استیبل دیفیوژن (Stable Diffusion) هم که توسط عماد موستاک، کارآفرین اروپایی تأسیس شد در آگوست ۲۰۲۲ به صحنه آمد. این استارتاپ یک پروژه‌ی متن‌باز است و هر شخصی می‌تواند نرم‌افزار آن را دانلود کند.

چرا بسیاری از افراد برای کار با این نوع هوش مصنوعی هیجان‌زده‌اند؟ بسیاری از تصاویر به همان دلیل ایجاد می‌شوند که انسان‌ها همیشه هنر را خلق می‌کردند: تصاویر زیبا هستند و از دیدن آن‌ها لذت می‌بریم؛ مانند شعله‌های آتش، الگوهای نوری چشمگیر هستند و هرگز خود را تکرار نمی‌کنند. این تصاویر چشم‌اندازهایی را نشان می‌دهند که قبلا دیده یا حتی تصور نشدند و با ترکیب‌بندی حرفه‌ای ساخته می‌شوند.

دیدن این تصاویر مانند لذت بردن از اکتشاف در دنیای بازی‌های ویدئویی یا ورق زدن کتاب‌های هنری است. یک زیبایی واقعی در خلاقیت آن‌ها نهفته است و درست مانند دیدن یک اثر زیبای هنر در موزه به آن‌ها نگاه می‌کنیم. در واقع، دیدن مجموعه‌ای از تصاویر تولید‌شده درست مانند بازدید از یک موزه‌ی شخصی است اما این بار دیوارها پر از آثار هنری می‌شوند که خودمان درخواست کردیم. تازگی ابدی و شگفتی تصویر بعدی به‌ندرت کاهش می‌یابد. کاربرها می‌توانند آثار خود را به اشتراک بگذارند اما یک انسان نمی‌تواند ۹۹ درصد از ۲۰ میلیون تصویری را که روزانه تولید می‌شوند ببیند.

تصاویر هم مانند بسیاری از آثار هنری می‌توانند شفابخش باشند. مردم درست به همان دلیلی که روزهای تعطیل نقاشی می‌کنند یا در مجله‌ای خط‌خطی می‌کنند یا فیلمی را ضبط می‌کنند، برای تصاویر عجیب هوش‌ مصنوعی وقت می‌گذارند. آن‌ها از این رسانه‌ها برای رسیدن به درکی در زندگی خود استفاده می‌کنند که به طریق دیگر نمی‌توانند به آن برسند.

برای مثال برخی تصاویر، بهشت جانوران را در واکنش به مرگ یک سگ محبوب نشان می‌دهند. بسیاری از تصاویر کاوشی در بازنمایی حوزه‌های معنوی هستند. به عقیده‌ی هولز، سازنده‌ی میدجورنی، بخش زیادی از کاربرد کلی این ابزار به هنر درمانی اشاره دارد. تصاویر هوش مصنوعی نه‌تنها از لحاظ زیباشناسی بلکه از لحاظ معنایی هم جذاب هستند. از ماشین‌ها می‌توان برای تولید انواع تصاویر فانتزی استفاده کرد. گرچه سرویس‌های میزبان از ساخت محتوای غیراخلاقی جلوگیری می‌کنند.

تصاویرساخته شده با هوش مصنوعی همچنین ممکن است کاربردی باشند. برای مثال فرض کنید گزارشی را درباره‌ی احتمال بازیافت ضایعات پلاستیکی بیمارستانی و تبدیل آن‌ها به مواد ساخت و ساز ارائه می‌کنید و به دنبال تصویری از یک خانه‌ هستید که با لوله‌های تست ایجاد شده است. می‌توانید بازارهای عکس استوک را برای تصاویر کاربردی هنرمندان انسانی جستجو کنید؛ اما برای یک تکلیف منحصر‌به‌فرد این چنینی به‌ندرت می‌توانید تصویری را پیدا کنید و حتی اگر پیدا کنید یا مشکل کپی‌رایت دارد یا گران‌قیمت است؛ بنابراین می‌توانید تنها در چند دقیقه تصویری منحصر‌به‌فرد را برای گزارش خود بسازید و از این تصویر در اسلایدها، خبرنامه یا وبلاگ خود استفاده کنید چرا که کپی‌رایت آن متعلق به شما است.

براساس آماری غیررسمی، کاربران تقریبا ۴۰ درصد از زمان خود را صرف جستجوی تصاویر کاربردی می‌کنند. اغلب تصاویر هوش مصنوعی معمولا در جاهایی به کار می‌روند که قبلا هیچ تصویری نداشتند. این تصاویر جایگزین تصاویر هنرمندان انسانی نیستند؛ اما برای مثال شخصی که خود استعداد هنری یا زمان و بودجه‌ی کافی را برای خلق آثار هنری ندارد می‌تواند از این تصاویر برای خبرنامه‌ای تمام متنی استفاده کند. همان‌طور که عکاسی مکانیکی در حدود یک قرن پیش باعث از بین رفتن تصویرسازی‌های انسانی نشد، بلکه برعکس باعث توسعه‌ی حوزه‌های کاربردی شد، مولدهای تصویر هوش مصنوعی هم به گسترش هنر کمک خواهند کرد نه کمتر. در آینده شاهد کاربرد این تصاویر در فضاهایی خالی مثل ایمیل‌ها، پیغام‌های متنی، وبلاگ‌ها، کتاب‌ها و شبکه‌های اجتماعی خواهیم بود.

این هنر جدید درست در نقطه‌ای بین نقاشی و عکاسی قرار می‌گیرد. همچنین در فضایی به بزرگی نقاشی و طراحی و به عظمت خیال‌پردازی انسان به بقای خود ادامه می‌دهد. با تغییر دستورها می‌توانید به نقطه‌ای برسید که هیچ‌کس تاکنون نرسیده است. این قلمرو می‌تواند یک سوژه، حالت روحی روانی یا سبکی باشد که ارزش ارجاع را دارد. هنر وسیله‌ای برای یافتن حوزه‌های جدید است. وقتی عکاسی برای اولین بار ظاهر شد، به نظر می‌رسید که تمام عکاس‌ها تنها با فشار دادن یک دکمه به هدف خود می‌رسند. همین تصور برای افرادی که با هوش مصنوعی کار می‌کنند وجود دارند. در هر دو نمونه، خروجی یک تصویر است؛ اما رسیدن به تصویری هنری مسئله‌ای کاملا متفاوت است.

سن مولدهای تصویر هوش مصنوعی در دسترس، حتی به یک سال هم نرسیده اما واضح است که برخی افراد نسبت به برخی دیگر در تولید تصاویر هوش مصنوعی عملکرد بهتری دارند. گرچه هر دو گروه از یک برنامه‌ استفاده می‌کنند، افرادی که ساعت‌های بیشتری را صرف کار با این الگوریتم‌ها کرده‌اند می‌توانند تصاویری بسیار بهتری را تولید کنند. تصاویر این اساتید دارای انسجام و جسارت بصری هستند که معمولا با جزئیات زیاد هوش مصنوعی همراه هستند. کار تیمی پشت این نتیجه است؛ هنرمند انسانی و هنرمند ماشینی هماهنگ عمل می‌کنند. این کار نه‌تنها نیاز به تجربه دارد بلکه برای تولید یک تصویر موفق باید زمان صرف کنید.

گویا طیفی برای هوش مصنوعی وجود دارد. یک طرف طیف شگفتی کامل و سمت دیگر اطاعت حداکثری است. به‌سادگی می‌توان با هوش مصنوعی شگفت‌زده شد؛ اما به‌سختی می‌توانید کاری کنید که کاملا از شما اطاعت کند. به باور مایرو کلینگمان که NFT آثار تولیدشده با هوش مصنوعی را می‌فروشد، اگر تصویر بسیار خاصی را در ذهن داشته باشید، مانند این است که در برابر نیرویی عظیم قرار دارید. هوش مصنوعی با اکراه از دستورهایی مثل سایه‌زنی یک نقطه، بهبود یک نقطه یا پائین آوردن سایه‌های یک نقطه اطاعت می‌کند. هوش مصنوعی باید به این کار ترغیب شود.

نسخه‌های فعلی DALL-E، استیبل دیفیوژن و میدجورنی دستورها را تقریبا به اندازه‌ی یک توییت طولانی محدود می‌کنند. اگر کلمات و جملات طولانی‌تری کنار یکدیگر قرار داشته شوند، تصویر بی‌نظم‌تر خواهد شد. در واقع پشت هر تصویر شگفت‌انگیزی، دستوری سحرآمیز قرار دارد. کار با اولین دستور جادویی آغاز می‌شود. چگونگی گفتن آن اهمیت دارد. نتایج آنی در مجموعه‌ای شامل چهار تا نه تصویر ظاهر می‌شوند. از مجموعه‌ی تصاویر می‌توانید تصاویر حاصل را ایجاد کنید.

برای رسیدن به تصویر ایده‌آل لازم است مانند هوش مصنوعی فکر کنید: دستورالعمل‌ها را به دستور خود اضافه کنید. با تکرار به کار خود ادامه دهید. کلمات را برای دیدن نتایج جدید تغییر دهید. سپس از میان تصاویر ایجاد شده، تعداد کمی را انتخاب کنید. پشت این جادو، هنر برانگیختن قرار دارد. هر هنرمند یا طراح روش خود را برای برانگیختن هوش مصنوعی دارد. این هنرمندان مانند کارگردان‌هایی، هوش مصنوعی را به چشم‌اندازی منحصربه‌فرد هدایت می‌کنند.

PromptBase بازاری برای دستوردهندگان است که دستورات منتهی به تصاویر ساده مثل لوگوها، آیکون‌ها، آواتارها و سلاح‌ گیم را بفروشند. در این وب‌سایت به‌جای فروختن اثر هنری، فرمان یا دستوری را که به اثر هنری می‌انجامد می‌فروشید؛ و برخلاف کلیپ‌آرت ثابت، به‌راحتی می‌توان اثر به‌دست‌آمده را بر اساس نیازها تغییر داد و به نسخه‌های متعددی از آن‌ها رسید. اغلب این دستورها به قیمت عادلانه‌ای فروخته می‌شوند.

دستورهای فوق متوسط نه‌تنها دارای سوژه هستند بلکه نورپردازی، زاویه‌ی دید، احساسات، پالت رنگی، میزان انتزاع و حتی شاید مرجع تصویری را توصیف می‌کنند. به دلایل فنی، حتی با تکرار یک دستور یکسان بعید است به خروجی یکسانی برسید. یک هسته‌ی تصادفی برای هر تصویر وجود دارد که بدون آن از نظر آماری نمی‌توان یک کپی را تولید کرد. علاوه بر این دستور یکسانی که وارد موتورهای هوش مصنوعی مختلف می‌شود، تصاویر متفاوتی را تولید می‌کند. برای مثال تصاویر میدجورنی به نقاشی نزدیک‌تر هستند در حالی که تصاویر DALL-E به عکاسی واقعی شباهت دارند. با این‌حال دستوردهندگان نمی‌خواهند رازهای خود را برملا کنند.

به‌نظر واضح می‌رسد که دستوردهندگان هنر واقعی را تولید می‌کنند. آیا کارگردان‌های فیلم مثل هیچکاک یا کوروساوا چیزی به‌جز دستوردهنده‌ به بازیگرها، کارها، صحنه‌ها یا ایده‌ها هستند؟ دستوردهندگان مولد تصویر هم در کار مشابهی دخالت دارند و بنابراین عجیب نیست که تولیدهای خود را در گالری‌های هنری بفروشند یا حتی آن‌ها را به رقابت‌های هنری وارد کنند. تابستان ۲۰۲۲، جو آلن به خاطر بوم بزرگی با فضای اپرا که با امضای جو آلن از طریق میدجورنی همراه بود برنده‌ی جایزه‌ی اول هنر دیجیتال در رقابت کلرادو استیت فیر فاین آرت شد.

معمولا تصاویر دسته‌ی هنر دیجیتال با استفاده از ابزارهایی مثل بلندر یا فتوشاپ ایجاد می‌شوند که به هنرمندان اجازه می‌دهند به کتابخانه‌هایی از اشیای دیجیتالی و بافت‌ها دسترسی پیدا کنند که بعدا همراه با یکدیگر کولاژ می‌شوند و یک چشم‌انداز را می‌سازند. این تصاویر دیجیتالی در واقع مونتاژهای تکنولوژی هستند. کولاژها هنر قابل احترامی هستند و استفاده از هوش مصنوعی برای ساخت کولاژ یک تکامل طبیعی است. به باور آلن، اگر کولاژ با رندر سه‌بعدی هنر است پس تصویر میدجورنی هم هنر است.

البته هنر آلن هشداردهنده است. به عقیده‌ی برخی از منتقدان، این هنر علامت پایان یک دوره، پایان هنر یا پایان هنرمند انسانی است. سوگواری‌ها قابل پیش‌بینی هستند چرا که بسیاری بر بی‌عدالتی این روند برای هنرمندان واقعی اشاره می‌کنند. هوش مصنوعی نه تنها بر ما غلبه می‌کند و ما را می‌کشد بلکه بهترین هنر دنیا را هم تولید می‌کند. هر فناوری جدیدی در آستانه‌ی تولد خود، یک چرخه‌ی وحشت فناوری را به دنبال دارد که دارای هفت فاز است:

  • من را با این چرت و پرت‌ها آزار نده. این فناوری هرگز نتیجه‌بخش نخواهد بود.
  • خیلی خوب، در حال وقوع است اما خطرناک است زیرا خوب کار نمی‌کند.
  • صبر کن، خیلی خوب کار می‌کند. باید مانع آن شویم. کاری کن.
  • این فناوری به قدرتی قدرتمند است که ناعادلانه است برخی به آن دسترسی نداشته باشند.
  • حالا این فناوری همه‌جا است و راهی برای فرار از آن وجود ندارد. عادلانه نیست.
  • تسلیم می‌شوم. حداقل برای یک ماه.
  • بگذار بر مشکل واقعی تمرکز کنیم که فناوری نسل بعدی است.

امروزه در نمونه‌ی مولدهای تصویر هوش مصنوعی، مجموعه‌ای از هنرمندان نوظهور دوستدار فناوری و عکاسان به‌خوبی از ترس مرحله‌ی ۳ عبور می‌کنند. از طرفی برخی افراد می‌ترسند شغل خود را از دست بدهند. برای مثال Getty Images، یکی از شرکت‌های پیشتاز در فروش عکس‌های خام و تصویرسازی‌های مربوط به طراحی، تصاویر تولیدشده با هوش مصنوعی را ممنوع کرده است. هنرمندان مشخصی که آثار خود را در DeviantArt پست می‌کنند هم خواستار ممنوعیت مشابهی شدند. همچنین تقاضاهایی برای تفکیک هنر هوش مصنوعی از هنر واقعی دیده می‌شود.

علاوه‌بر‌این برخی هنرمندان خواستار بیمه‌هایی هستند که هنرشان برای آموزش هوش مصنوعی به کار نرود؛ اما این هم ترس سطح سه است که به دلیل درک نادرست به وجود می‌آید. الگوریتم‌ها معمولا در معرض ۶ میلیارد تصویر همراه با متن قرار می‌گیرند. اگر هنرمند تأثیرگذاری نباشید، حذف کار شما تأثیر چندانی در نتیجه به وجود نخواهد آورد. تصویر به وجود آمده با یا بدون تصویر شما ظاهر تقریبا یکسانی خواهد داشت؛ اما اگر هنرمند تأثیرگذار و معروفی باشد هم باز حذف عکستان تأثیر چندانی نخواهد داشت؛ زیرا سبک شما بر کارهای دیگران تأثیر می‌گذارد و حتی اگر تصاویرتان حذف شود، تأثیر شما باقی خواهد ماند. برای مثال فرض کنید کل نقاشی‌های ون‌گوگ از یک مجموعه‌ی آموزشی حذف شود. باز هم سبک ونگوگ در میان انبوه تصاویر ایجادشده توسط افرادی که از این هنرمند تقلید کرده‌اند، وجود دارد.

در سال‌های پیش رو، موتور محاسباتی مولدهای تصویر هوش مصنوعی توسعه و بهبود خواهند یافت به‌طوری‌که درنهایت به گره‌ی مرکزی کارهای بصری تبدیل می‌شوند. این مولدها درنهایت همه‌چیز را می‌بینند و تمام سبک‌ها را می‌شناسند و می‌توانند کاملا منطبق با نیاز کاربرها آثاری را تولید کنند؛ بنابراین به یک موتور جستجو یا دایره‌المعارف بصری تبدیل می‌شوند که از آن برای درک تصاویر استفاده می‌کنیم.

امروزه هر الگوریتم شبکه‌ی عصبی که در هوش مصنوعی وجود دارد به انبوه وسیعی از داده‌ها وابسته است و برای آموزش آن نیاز به میلیاردها تصویر است؛ اما در دهه‌ی آینده شاهد هوش مصنوعی عملیاتی خواهیم بود که به تعداد کمتری از نمونه‌ها شاید به اندازه‌ی ۱۰ هزار نمونه برای یادگیری وابسته است. همچنین مولدهای تصویر هوش مصنوعی قدرتمند را با نمایش هزاران تصویر منتخب برای نقاشی کردن آموزش می‌دهیم. روزی خواهد رسید که هنرمندان با انواع سوابق مختلف برای قرار گرفتن آثار خود در مجموعه‌ی یادگیری هوش مصنوعی رقابت می‌کنند. اگر هنرمندی در مخزن اصلی یادگیری باشد، تأثیرگذاری بیشتری خواهد داشت.

با تولد الگوریتم‌های مولد دوبعدی، آزمایشگرها به این فکر کردند که گام بعدی چه می‌تواند باشد. جنسن هوانگ، هم‌بنیان‌گذار بلندپرواز انویدیا معتقد است نسل بعدی تراشه‌ها دنیاهای سه‌بعدی متاورسی را می‌سازند که وی آن را «پلتفرم رایانشی بعدی» می‌نامد. در همین سپتامبر گذشته تنها در یک هفته، سه مولد تصویر و ویدئویی جدید تبدیل متن به 3D معرفی شدند: GET3D از انویدیا، Make A Video از متا و DreamFusion از گوگل. این گسترش بسیار سریع‌تر از حد تصور در حال رخ دادن است.

دستور آینده‌ی موتور سه‌بعدی می‌تواند چنین چیزی باشد: «اتاق بی‌نظم یک نوجوان را بساز به‌طوری‌که پوسترهایی روی دیوار قرار دارند و نور خورشید بعدازظهر از میان کرکره‌ها به داخل تابیده است.» و تنها در چند ثانیه یک اتاق کاملا سه‌بعدی متولد می‌شود که درهای کمد باز هستند و تمام لباس‌های کثیف روی زمین ریخته‌اند. یا می‌توان به هوش مصنوعی گفت: «آشپزخانه‌ای به سبک دهه‌ی ۱۹۷۰ بساز که تمام جعبه‌های غلات صبحانه در آن قرار دارند و بتوان در آن قدم زد.»

بدین‌ترتیب هوش مصنوعی بازی‌ها، متاورس‌ها و فیلم‌هایی را تولید خواهد کرد. دنیایی را فرض کنید که در آن میلیون‌ها آماتور در حال ساخت فیلم‌ها و متاورس‌هایی در خانه‌ی خود هستند. آن‌ها با نبوغ بومی خود می‌توانند ژانرهای جدید رسانه‌ای، توریسم مجازی یا میم‌های فضایی را بسازند؛ و هنگامی که نهادها و شرکت‌های حرفه‌ای به این ابزار مجهز شوند شاهد تولید شاهکارهایی در سطحی پیچیده هستیم که قبلا هرگز ندیده‌ایم.

ابزارهایی مثل DALL-E، میدجورنی و استیبل دیفیوژن تنها نسخه‌های اولیه‌ی ماشین‌های مولد هستند. تفکر انسان بسیار پیچیده‌تر از تشخیص الگوها است. البته مغز انسان دارای ده‌ها کارکرد شناختی است؛ اما این نوع مستقل از شناخت که با ماشین‌ها ترکیب شده است فراتر از تصور اولیه است. وقتی هوش مصنوعی الگویی را می‌بیند آن را به شیوه‌ای فشرده ذخیره می‌کند.

اشیای مدور در جهتی مدور و اشیای قرمز به دلیل قرمزی در مسیری دیگر قرار می‌گیرند. هوش مصنوعی تمام این مسیرهای دیده شده را به الگوی کلمات ربط می‌دهد که در ویژگی‌هایی مشترک هستند؛ بنابراین وقتی انسانی تصویر یک سیب را از طریق نوشتن کلمه‌ی «apple» درخواست می‌کند، هوش مصنوعی تصویر را با چهار ویژگی رسم می‌کند. در واقع بخش‌هایی از تصاویر موجود را مونتاژ نمی‌کند بلکه تصویری جدید را با ویژگی‌های مناسب تصور می‌کند.

از همین تکنیک می‌توان برای یافتن داروهای جدید استفاده کرد. هوش مصنوعی بر اساس پایگاه‌داده‌ای از تمام مولکول‌هایی که برای ساخت دارو به کار می‌روند آموزش می‌بیند و به الگوی موجود در ساختار شیمیایی آن‌ها نگاه می‌کند. سپس از هوش مصنوعی خواسته می‌شود مولکول‌ها را به خاطر بسپارد یا مولکول‌هایی را تصور کند که هرگز مشابه‌ مولکول‌های موجود نیستند. به طرز شگفت‌انگیزی برخی از آن‌ها نتیجه‌بخش خواهند بود. این یک تحول واقعی است و خیلی زود می‌توان از همین روش برای طراحی خودروها، پیش‌نویس قوانین، نوشتن کد، آهنگ‌سازی، گردآوردن کلمات و هم‌آفرینی کالاهای اثربخش استفاده کرد.

درباره‌ی مولدهای هوش مصنوعی می‌توان گفت این ابزار شریک‌های خوبی هستند. کابوس غلبه‌ی کامل هوش مصنوعی بر انسان رخ نخواهد داد. این چشم‌انداز درواقع به معنی سوءبرداشت از تاریخ است. در گذشته فناوری به‌ندرت توانسته جای انسان را پر کند. برای مثال تولید خودکار تصاویر با استفاده از ماشینی به نام دوربین در سده‌ی ۱۸۰۰ میلادی ترسی را از خود به‌جا گذاشت و نقاشان پرتره تصور می‌کردند شغل خود را برای همیشه از دست خواهند داد؛ اما هانس روسنبوم مورخ، تنها یک نقاش پرتره را پیدا کرد که احساس می‌کرد به دلیل ظهور عکاسی بیکار می‌شود

عکاسی در واقع باعث تجدید حیات نقاشی در آن نسل شد. در زمان نزدیک‌ به زمان حال، همچنین انتظار می‌رفت عکاس‌ها شغل خود را به دلیل ظهور گوشی‌های هوشمند از دست بدهند و با توجه به ۹۵ میلیون آپلود تصویر روزانه در اینستاگرام همه عکاس شوند. بااین‌حال تعداد عکاس‌های حرفه‌ای در ایالات متحده از ۱۶۰ هزار نفر در سال ۲۰۰۲ (پیش از ظهور گوشی‌های دوربین‌دار) به ۲۳۰ هزار نفر در سال ۲۰۲۱ رسید.

به‌جای ترسیدن از هوش مصنوعی بهتر است به این فکر کنیم که چه چیزهایی را می‌توانیم از این فناوری یاد بگیریم. مهم‌ترین درسی که مولدهای تصویر هوش مصنوعی به ما می‌دهند این است: خلاقیت نیرویی مافوق طبیعی نیست. بلکه چیزی است که می‌توان آن را ترکیب، تقویت و دست‌کاری کرد. برای رسیدن به تفکر خلاق نیازی به هوش ندارید. خلاقیت بیشتر از آنچه فکر کنید بنیادی و مستقل از آگاهی است. می‌توانید خلاقیت را در یک شبکه‌ی عصبی یادگیری عمیق تولید کنید. داده‌های انبوه به همراه الگوریتم‌های تشخیص الگو برای رسیدن به فرآیندی شگفت‌انگیز کافی هستند.


هر آنچه میخواهید در اینجا بخوانید
شاید از نوشته‌های زیر خوشتان بیاید
نظر خود را درباره این پست بنویسید ...

منوی سریع