پیشرفتهای سریع اخیر در هوش مصنوعی در زمره مهمترین پیشرفتهای فناوری دهه قرار گرفته است. امروزه، مدلهای مولد هوش مصنوعی متن به هنر مانند میانه سفر و DALL-E به قدری پیچیده هستند که گاهی محدودیتهای انسانی خود کاربران – به جای محدودیتهای مدل – اغلب در اولین تماس افراد با فناوری، مانع اصلی میشوند.
وقتی میتوانید هر چیزی خلق کنید، مردم با تصمیمگیری «چه چیزی خلق کنند» دست و پنجه نرم میکنند که منجر به فلج تصمیم میشود.
با این حال، هوش مصنوعی نیز مشکلات خاص خود را دارد. مثال عالی ایجاد دست های عالی است. وب مملو از تصاویر وهمآور و وحشتناک افرادی است که مدل کاملی دارند با انگشتان بسیار زیاد، کم یا غیرممکن به هم مرتبط.
چرا مدلی که قادر به تولید تصاویر واقعی از یک خرس با لباس تاکسیدو در حال دوچرخهسواری در کوههای آلپ سوئیس است، هنوز با چیزی به سادگی یک دست مشکل دارد؟ پاسخ چندان ساده نیست.
اولا، انسان ها همیشه در خلق دست مهارت استثنایی نداشته اند. تسلط بر طراحی دستی واقع گرایانه، حداقل قرن ها طول کشیده است. فقط به عنوان مثال، این دستها از دورانهای مختلف واقعبینانه نیستند – و مطمئناً زیبا نیستند.
در واقع، هنرمندان انسانی در 600 سال گذشته تنها توانستهاند بهطور پیوسته بازنماییهایی از دست بصری دلپذیر خلق کنند. این بدان معناست که تنها حدود 0.3 درصد از ما 200000 ساله تاریخ هنر دارای دست های زیبا است. در این زمینه به ماشین ها اعتبار بدهیم.
کلاهک دستی هوش مصنوعی: چرا هوش مصنوعی با ساخت دست های عالی مبارزه می کند
دلایل زیادی برای مبارزه هوش مصنوعی با دست وجود دارد، اما آنها را می توان به دو دسته تقسیم کرد: بیولوژیکی و فنی.
دلایل بیولوژیکی:
پیچیدگی دست ناشی از یک ویژگی بیولوژیکی اساسی است: این قسمت بدن است که بیشترین مفاصل را در یک ناحیه کوچک دارد. در نتیجه، یک دست میتواند دهها موقعیت و نمایش مختلف داشته باشد که برای شناسایی الگوها ایدهآل نیست.
اساساً یک هوش مصنوعی در تلاش است تا تشخیص دهد چه چیزی یک دست را به یک دست تبدیل می کند. و متداول ترین ویژگی های اساسی (رنگ پوست، بافت پوست، ناخن ها، کف دست و تعداد انگشتان جمع اما غیرقابل شناسایی) برای برآورده کردن معیارهای ما کافی نیست.
هوش مصنوعی در تولید تصاویر واقعی پیشرفت چشمگیری داشته و تا حدودی حتی با دست هم موفق بوده است. علیرغم داشتن پنج، شش یا هفت انگشت، هنوز هم می توانیم هوش مصنوعی را تشخیص دهیم ایجاد می کند دستها – حداقل فکسهای قابل تشخیص.
با این حال، دست ها چنان نقش مهمی در زندگی و بدن ما دارند که درک ما از استانداردهای بسیار بالایی برخوردار است. دیدن دستی با شش انگشت یا بدون بند انگشت بسیار ناراحت کننده است تا مثلاً زنی بدون ناف یا فردی با پاهای کوتاه تر از حد متوسط.
این منجر به افتادن دست های هوش مصنوعی به داخل می شود دره عجیب و غریب، جایی که آنها بیش از حد واقع بینانه به نظر می رسند که نمایشی جعلی باشند و در عین حال بیش از حد جعلی به نظر می رسند که واقعی به نظر برسند.
دلایل فنی:
از نظر فنی، تصاویر تولید شده توسط هوش مصنوعی در به تصویر کشیدن دقیق هر چیزی با الگوهای مشخص و منظم مشکل دارند. به عنوان مثال، تصاویر ایجاد شده توسط هوش مصنوعی از یک فرد پابرهنه با شکم فشرده و دهانی خندان با دندانهای قابل مشاهده ممکن است احتمالاً تعداد انگشتان پا، دندانهای زیادی یا شاید تعداد غیرقابل قبولی شکم داشته باشد.
با این حال، این ناهماهنگیها چندان ما را آزار نمیدهند، زیرا دندانها و شکم مانند دستها نقش مهمی در زندگی ما ندارند. اکثر مردم ترجیح می دهند یک دندان را به جای انگشت خود از دست بدهند و مطمئناً می توانند بدون شش تکه زندگی کنند – مگر اینکه بدنساز باشند.
کمبود داده ها مسئله دیگری است. هوش مصنوعی ها هنوز با داده های کافی برای تمرکز روی دست ها آموزش ندیده اند. الگوریتم به طور کلی درک می کند که وقتی یک انگشت وجود دارد، معمولا تعداد بیشتری وجود دارد. با این حال، فاقد جزئیات مورد نیاز برای درک واقعی رفتار هر مفصل انگشت، مکان و عملکرد کلی دست در هر یک از میلیاردها تصویر ارائه شده برای آموزش است.
مثلا، این تصویر (شماره 2,120,079,006,880 از Laion-2b-en مدل دادهای که برای آموزش انتشار پایدار استفاده میشود) به عنوان «مردی با نقص وضعیت وضعیت بدنی مختل اسکولیوز و ایدهآل» توصیف میشود، اما اطلاعاتی برای توصیف ظاهر دستهای عادی او اضافه نمیکند: «دست او در وضعیت آرام است. با انگشتان کمی نزدیک به هم و خمیده به سمت بدنش در حالی که شست قابل مشاهده نیست.
انتشار پایدار با استفاده از آموزش داده شد Laion-5b مجموعه داده چرا سعی نمیکنید دستهای انسان را در مجموعهای از 585 میلیارد تصویر شناسایی و به درستی توصیف کنید؟ موفق باشید.
آینده دستهای هوش مصنوعی و نحوه برخورد با این مشکل در حال حاضر
با توجه به اینکه مشکل تا حدی در آموزش ناکافی نهفته است، منطقی است که فرض کنیم مدل های تولید متن به تصویر در نهایت بر چالش ایجاد دست های واقع گرایانه غلبه خواهند کرد.
برای مثال، رمزگشایی اخیرا ارائه شده است نمونه هایی از MidJourney’s شایستگی چشمگیر در تولید دست های واقع گرایانه با جدیدترین نسخه آن. طی چند ماه، با توجه به افزایش سرمایه گذاری در این فناوری ها و در دسترس بودن سخت افزار قدرتمندتر برای پردازش حجم وسیعی از داده ها.
حتی در حال حاضر، دست های زشت شروع به محو شدن در گذشته کرده اند – حداقل برای هنرمندان حرفه ای یا با تجربه هوش مصنوعی. تولید عقربه های واقعی با استفاده از Stable Diffusion با ارائه راهنمایی برای این فرآیند در حال حاضر امکان پذیر است.
Stable Diffusion یک مدل تولید تصویر با هوش مصنوعی منبع باز شبیه به MidJourney یا DALL-E است. تفاوت اصلی این است که به دلیل معماری باز آن، جامعه می تواند آن را با نیازهای خود منطبق کند و ایجاد کند مدل های سفارشی تمرکز بر هر چیزی از تصاویر آینده نگر گرفته تا هنرهای کارتونی و – البته – تصاویر بزرگسالان بدون سانسور.
علاوه بر این، کاربران میتوانند پلاگینهای سازگار با Stable Diffusion را برای اهداف مختلف مانند حالتها، نقشههای عمق، ادغام مدلها و اجرای دستورالعملها برای ایجاد عقربههای واقعی ایجاد کنند.
برای تولید تصاویر با دست های عالی با Stable Diffusion امروز، کاربران باید آن را نصب و پیکربندی کنند افزونه ControlNet، یک تصویر مرجع با عقربه های معمولی به نصب شده ارائه دهید مدل Openpose، به Stable Diffusion دستور مورد نظر را بدهید و تصویر تولید شده را ارزیابی کنید.
هنگامی که این کار انجام شد، کاربران باید با پارامترها بازی کنند و تمرین کنند. اما این روش (که می تواند شناسایی کند بیش از 20 نقطه کلیدی مختلف در دست انسان) موثرتر از تکنیک نقاشی داخلی است، که شامل دستور دادن به ماشین برای اصلاح تنها قسمت دست و امیدواری برای بهترین نتیجه است.
اگر نمی خواهید با همه اینها کنار بیایید، البته می توانید فقط از فتوشاپ استفاده کنید و تصاویر خود را با دست های وحشتناک ویرایش کنید. Adobe 30 سال است که نرمافزار هوش مصنوعی را برای بهبود تصاویر میفروشد، بنابراین اگر از هر نرمافزار ویرایش تصویری استفاده میکنید، به نوعی شما از لحاظ فنی نیز هنرمند هوش مصنوعی هستید.
همانطور که مدل های هوش مصنوعی به تکامل و بهبود ادامه می دهند، بدون شک کیفیت دست های تولید شده و سایر الگوهای پیچیده پیشرفت خواهند کرد. ترکیبی از افزایش سرمایهگذاری، در دسترس بودن دادهها، و قابلیتهای سختافزار، و همچنین همکاری در جامعه منبع باز، پیشرفت قابل توجهی را در این زمینه ایجاد خواهد کرد.