پیشرفت‌های سریع اخیر در هوش مصنوعی در زمره مهم‌ترین پیشرفت‌های فناوری دهه قرار گرفته است. امروزه، مدل‌های مولد هوش مصنوعی متن به هنر مانند میانه سفر و DALL-E به قدری پیچیده هستند که گاهی محدودیت‌های انسانی خود کاربران – به جای محدودیت‌های مدل – اغلب در اولین تماس افراد با فناوری، مانع اصلی می‌شوند.

وقتی می‌توانید هر چیزی خلق کنید، مردم با تصمیم‌گیری «چه چیزی خلق کنند» دست و پنجه نرم می‌کنند که منجر به فلج تصمیم می‌شود.

با این حال، هوش مصنوعی نیز مشکلات خاص خود را دارد. مثال عالی ایجاد دست های عالی است. وب مملو از تصاویر وهم‌آور و وحشتناک افرادی است که مدل کاملی دارند با انگشتان بسیار زیاد، کم یا غیرممکن به هم مرتبط.

چرا مدلی که قادر به تولید تصاویر واقعی از یک خرس با لباس تاکسیدو در حال دوچرخه‌سواری در کوه‌های آلپ سوئیس است، هنوز با چیزی به سادگی یک دست مشکل دارد؟ پاسخ چندان ساده نیست.

اولا، انسان ها همیشه در خلق دست مهارت استثنایی نداشته اند. تسلط بر طراحی دستی واقع گرایانه، حداقل قرن ها طول کشیده است. فقط به عنوان مثال، این دست‌ها از دوران‌های مختلف واقع‌بینانه نیستند – و مطمئناً زیبا نیستند.

در واقع، هنرمندان انسانی در 600 سال گذشته تنها توانسته‌اند به‌طور پیوسته بازنمایی‌هایی از دست بصری دلپذیر خلق کنند. این بدان معناست که تنها حدود 0.3 درصد از ما 200000 ساله تاریخ هنر دارای دست های زیبا است. در این زمینه به ماشین ها اعتبار بدهیم.

کلاهک دستی هوش مصنوعی: چرا هوش مصنوعی با ساخت دست های عالی مبارزه می کند

دلایل زیادی برای مبارزه هوش مصنوعی با دست وجود دارد، اما آنها را می توان به دو دسته تقسیم کرد: بیولوژیکی و فنی.

دلایل بیولوژیکی:

پیچیدگی دست ناشی از یک ویژگی بیولوژیکی اساسی است: این قسمت بدن است که بیشترین مفاصل را در یک ناحیه کوچک دارد. در نتیجه، یک دست می‌تواند ده‌ها موقعیت و نمایش مختلف داشته باشد که برای شناسایی الگوها ایده‌آل نیست.

اساساً یک هوش مصنوعی در تلاش است تا تشخیص دهد چه چیزی یک دست را به یک دست تبدیل می کند. و متداول ترین ویژگی های اساسی (رنگ پوست، بافت پوست، ناخن ها، کف دست و تعداد انگشتان جمع اما غیرقابل شناسایی) برای برآورده کردن معیارهای ما کافی نیست.

وجه اشتراک همه این تصاویر چیست؟

هوش مصنوعی در تولید تصاویر واقعی پیشرفت چشمگیری داشته و تا حدودی حتی با دست هم موفق بوده است. علیرغم داشتن پنج، شش یا هفت انگشت، هنوز هم می توانیم هوش مصنوعی را تشخیص دهیم ایجاد می کند دست‌ها – حداقل فکس‌های قابل تشخیص.

با این حال، دست ها چنان نقش مهمی در زندگی و بدن ما دارند که درک ما از استانداردهای بسیار بالایی برخوردار است. دیدن دستی با شش انگشت یا بدون بند انگشت بسیار ناراحت کننده است تا مثلاً زنی بدون ناف یا فردی با پاهای کوتاه تر از حد متوسط.

این منجر به افتادن دست های هوش مصنوعی به داخل می شود دره عجیب و غریب، جایی که آنها بیش از حد واقع بینانه به نظر می رسند که نمایشی جعلی باشند و در عین حال بیش از حد جعلی به نظر می رسند که واقعی به نظر برسند.

دلایل فنی:

از نظر فنی، تصاویر تولید شده توسط هوش مصنوعی در به تصویر کشیدن دقیق هر چیزی با الگوهای مشخص و منظم مشکل دارند. به عنوان مثال، تصاویر ایجاد شده توسط هوش مصنوعی از یک فرد پابرهنه با شکم فشرده و دهانی خندان با دندان‌های قابل مشاهده ممکن است احتمالاً تعداد انگشتان پا، دندان‌های زیادی یا شاید تعداد غیرقابل قبولی شکم داشته باشد.

تصاویر تولید شده توسط Decrypt با استفاده از Stable Diffusion.

با این حال، این ناهماهنگی‌ها چندان ما را آزار نمی‌دهند، زیرا دندان‌ها و شکم مانند دست‌ها نقش مهمی در زندگی ما ندارند. اکثر مردم ترجیح می دهند یک دندان را به جای انگشت خود از دست بدهند و مطمئناً می توانند بدون شش تکه زندگی کنند – مگر اینکه بدنساز باشند.

کمبود داده ها مسئله دیگری است. هوش مصنوعی ها هنوز با داده های کافی برای تمرکز روی دست ها آموزش ندیده اند. الگوریتم به طور کلی درک می کند که وقتی یک انگشت وجود دارد، معمولا تعداد بیشتری وجود دارد. با این حال، فاقد جزئیات مورد نیاز برای درک واقعی رفتار هر مفصل انگشت، مکان و عملکرد کلی دست در هر یک از میلیاردها تصویر ارائه شده برای آموزش است.

مثلا، این تصویر (شماره 2,120,079,006,880 از Laion-2b-en مدل داده‌ای که برای آموزش انتشار پایدار استفاده می‌شود) به عنوان «مردی با نقص وضعیت وضعیت بدنی مختل اسکولیوز و ایده‌آل» توصیف می‌شود، اما اطلاعاتی برای توصیف ظاهر دست‌های عادی او اضافه نمی‌کند: «دست او در وضعیت آرام است. با انگشتان کمی نزدیک به هم و خمیده به سمت بدنش در حالی که شست قابل مشاهده نیست.

تصویر از مجموعه داده Laion-5b. منبع: Stability.ai

انتشار پایدار با استفاده از آموزش داده شد Laion-5b مجموعه داده چرا سعی نمی‌کنید دست‌های انسان را در مجموعه‌ای از 585 میلیارد تصویر شناسایی و به درستی توصیف کنید؟ موفق باشید.

آینده دست‌های هوش مصنوعی و نحوه برخورد با این مشکل در حال حاضر

با توجه به اینکه مشکل تا حدی در آموزش ناکافی نهفته است، منطقی است که فرض کنیم مدل های تولید متن به تصویر در نهایت بر چالش ایجاد دست های واقع گرایانه غلبه خواهند کرد.

برای مثال، رمزگشایی اخیرا ارائه شده است نمونه هایی از MidJourney’s شایستگی چشمگیر در تولید دست های واقع گرایانه با جدیدترین نسخه آن. طی چند ماه، با توجه به افزایش سرمایه گذاری در این فناوری ها و در دسترس بودن سخت افزار قدرتمندتر برای پردازش حجم وسیعی از داده ها.

نمونه هایی از دست های تولید شده با MidJourney V5. تصویر ایجاد شده توسط رمزگشایی با استفاده از هوش مصنوعی.

حتی در حال حاضر، دست های زشت شروع به محو شدن در گذشته کرده اند – حداقل برای هنرمندان حرفه ای یا با تجربه هوش مصنوعی. تولید عقربه های واقعی با استفاده از Stable Diffusion با ارائه راهنمایی برای این فرآیند در حال حاضر امکان پذیر است.

Stable Diffusion یک مدل تولید تصویر با هوش مصنوعی منبع باز شبیه به MidJourney یا DALL-E است. تفاوت اصلی این است که به دلیل معماری باز آن، جامعه می تواند آن را با نیازهای خود منطبق کند و ایجاد کند مدل های سفارشی تمرکز بر هر چیزی از تصاویر آینده نگر گرفته تا هنرهای کارتونی و – البته – تصاویر بزرگسالان بدون سانسور.

علاوه بر این، کاربران می‌توانند پلاگین‌های سازگار با Stable Diffusion را برای اهداف مختلف مانند حالت‌ها، نقشه‌های عمق، ادغام مدل‌ها و اجرای دستورالعمل‌ها برای ایجاد عقربه‌های واقعی ایجاد کنند.

برای تولید تصاویر با دست های عالی با Stable Diffusion امروز، کاربران باید آن را نصب و پیکربندی کنند افزونه ControlNet، یک تصویر مرجع با عقربه های معمولی به نصب شده ارائه دهید مدل Openpose، به Stable Diffusion دستور مورد نظر را بدهید و تصویر تولید شده را ارزیابی کنید.

هنگامی که این کار انجام شد، کاربران باید با پارامترها بازی کنند و تمرین کنند. اما این روش (که می تواند شناسایی کند بیش از 20 نقطه کلیدی مختلف در دست انسان) موثرتر از تکنیک نقاشی داخلی است، که شامل دستور دادن به ماشین برای اصلاح تنها قسمت دست و امیدواری برای بهترین نتیجه است.

اگر نمی خواهید با همه اینها کنار بیایید، البته می توانید فقط از فتوشاپ استفاده کنید و تصاویر خود را با دست های وحشتناک ویرایش کنید. Adobe 30 سال است که نرم‌افزار هوش مصنوعی را برای بهبود تصاویر می‌فروشد، بنابراین اگر از هر نرم‌افزار ویرایش تصویری استفاده می‌کنید، به نوعی شما از لحاظ فنی نیز هنرمند هوش مصنوعی هستید.

همانطور که مدل های هوش مصنوعی به تکامل و بهبود ادامه می دهند، بدون شک کیفیت دست های تولید شده و سایر الگوهای پیچیده پیشرفت خواهند کرد. ترکیبی از افزایش سرمایه‌گذاری، در دسترس بودن داده‌ها، و قابلیت‌های سخت‌افزار، و همچنین همکاری در جامعه منبع باز، پیشرفت قابل توجهی را در این زمینه ایجاد خواهد کرد.

از اخبار ارزهای دیجیتال مطلع باشید، به‌روزرسانی‌های روزانه را در صندوق ورودی خود دریافت کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

For security, use of Google's reCAPTCHA service is required which is subject to the Google Privacy Policy and Terms of Use.

I agree to these terms.