انواع مختلفی از شبکه های عصبی کانولوشنال وجود دارد، از جمله CNN های سنتی، شبکه های عصبی تکراری، شبکه های کاملاً کانولوشن و شبکه های ترانسفورماتور فضایی — بین دیگران.
CNN های سنتی
CNN های سنتی که با نام “وانیل” CNN ها از یک سری لایه های کانولوشن و ادغام تشکیل شده اند که به دنبال آن یک یا چند لایه کاملاً متصل هستند. همانطور که گفته شد، هر لایه کانولوشن در این شبکه یک سری کانولوشن را با مجموعه ای از فیلترهای قابل آموزش برای استخراج ویژگی ها از تصویر ورودی اجرا می کند.
معماری Lenet-5، یکی از اولین CNN های موثر برای تشخیص رقم دست نویس، یک CNN معمولی را نشان می دهد. دارای دو مجموعه از لایه های کانولوشنال و ترکیبی است که به دنبال دو لایه کاملاً متصل هستند. CNN’ کارایی در شناسایی تصویر توسط معماری Lenet-5 به اثبات رسیده است، که همچنین باعث استفاده گسترده تر از آنها در وظایف بینایی کامپیوتری می شود.
شبکه های عصبی مکرر
شبکه های عصبی بازگشتی (RNN) نوعی شبکه عصبی هستند که می توانند داده های متوالی را با پیگیری زمینه ورودی های قبلی پردازش کنند. بر خلاف شبکههای عصبی پیشخور معمولی که فقط دادههای ورودی را به ترتیب ثابت پردازش میکنند، شبکههای عصبی مکرر میتوانند ورودیهایی با طولهای مختلف را مدیریت کنند و خروجیهای وابسته به ورودیهای قبلی تولید کنند.
به عنوان مثال، RNN ها را می توان در فعالیت های NLP مانند تولید متن یا ترجمه زبان استفاده کرد. یک شبکه عصبی مکرر را می توان روی جفت جملات در دو زبان مختلف آموزش داد تا ترجمه بین این دو زبان را یاد بگیرد.
RNN جملات را یکی یکی پردازش می کند و بسته به جمله ورودی و خروجی قبلی در هر مرحله یک جمله خروجی تولید می کند. RNN میتواند ترجمههای صحیحی را حتی برای متون پیچیده تولید کند، زیرا ورودیها و خروجیهای گذشته را پیگیری میکند.
شبکه های کاملاً پیچیده
شبکههای کاملاً کانولوشنال (FCNs) نوعی از معماری شبکه عصبی هستند که معمولاً در وظایف بینایی رایانه مانند تقسیمبندی تصویر، تشخیص اشیا و طبقه بندی تصویر. FCN ها را می توان با استفاده از انتشار پس زمینه برای دسته بندی یا بخش بندی تصاویر به صورت سرتاسر آموزش داد.
پس انتشار یک الگوریتم آموزشی است که گرادیان های تابع تلفات را با توجه به وزن شبکه عصبی محاسبه می کند. توانایی یک مدل یادگیری ماشین برای پیشبینی خروجی پیشبینیشده برای یک ورودی معین با یک تابع ضرر اندازهگیری میشود.
FCN ها صرفاً بر اساس لایه های کانولوشن هستند، زیرا هیچ لایه کاملاً متصلی ندارند، که آنها را نسبت به شبکه های عصبی کانولوشن معمولی سازگارتر و از نظر محاسباتی کارآمدتر می کند. شبکهای که یک تصویر ورودی را میپذیرد و مکان و طبقهبندی اشیاء درون تصویر را خروجی میدهد، نمونهای از FCN است.
شبکه ترانسفورماتور فضایی
یک شبکه ترانسفورماتور فضایی (STN) در وظایف بینایی کامپیوتری برای بهبود تغییرناپذیری فضایی ویژگی های آموخته شده توسط شبکه استفاده می شود. توانایی یک شبکه عصبی برای تشخیص الگوها یا اشیاء در یک تصویر مستقل از موقعیت جغرافیایی، جهت یا مقیاس آنها به عنوان تغییر ناپذیری فضایی شناخته می شود.
شبکه ای که یک تبدیل فضایی آموخته شده را قبل از پردازش بیشتر به تصویر ورودی اعمال می کند، نمونه ای از STN است. این تبدیل می تواند برای تراز کردن اشیاء درون تصویر، تصحیح اعوجاج پرسپکتیو یا انجام سایر تغییرات فضایی برای بهبود عملکرد شبکه در یک کار خاص استفاده شود.
تبدیل به هر عملیاتی اطلاق می شود که یک تصویر را به نحوی تغییر می دهد، مانند چرخش، مقیاس بندی یا برش. تراز به فرآیند حصول اطمینان از اینکه اشیاء درون یک تصویر در مرکز، جهتگیری یا قرار گرفتن آنها به روشی ثابت و معنادار اشاره دارد.
هنگامی که اشیاء در یک تصویر به دلیل زاویه یا فاصله ای که تصویر از آن گرفته شده، کج یا تغییر شکل داده می شود، اعوجاج پرسپکتیو رخ می دهد. اعمال چندین تبدیل ریاضی روی تصویر، مانند تبدیلهای افین، میتواند برای تصحیح اعوجاج پرسپکتیو استفاده شود. تبدیلهای افین خطوط موازی و نسبتهای فاصله بین نقاط را برای تصحیح اعوجاج پرسپکتیو یا سایر تغییرات فضایی در یک تصویر حفظ میکنند.
تغییرات فضایی به هرگونه تغییر در ساختار فضایی یک تصویر، مانند چرخش، چرخش یا ترجمه تصویر اشاره دارد. این تغییرات میتواند دادههای آموزشی را افزایش دهد یا چالشهای خاصی را در کار، مانند تغییرات نور، کنتراست یا پسزمینه برطرف کند.