انواع مختلفی از شبکه های عصبی کانولوشنال وجود دارد، از جمله CNN های سنتی، شبکه های عصبی تکراری، شبکه های کاملاً کانولوشن و شبکه های ترانسفورماتور فضایی — بین دیگران.

CNN های سنتی

CNN های سنتی که با نام “وانیل” CNN ها از یک سری لایه های کانولوشن و ادغام تشکیل شده اند که به دنبال آن یک یا چند لایه کاملاً متصل هستند. همانطور که گفته شد، هر لایه کانولوشن در این شبکه یک سری کانولوشن را با مجموعه ای از فیلترهای قابل آموزش برای استخراج ویژگی ها از تصویر ورودی اجرا می کند.

معماری Lenet-5، یکی از اولین CNN های موثر برای تشخیص رقم دست نویس، یک CNN معمولی را نشان می دهد. دارای دو مجموعه از لایه های کانولوشنال و ترکیبی است که به دنبال دو لایه کاملاً متصل هستند. CNN’ کارایی در شناسایی تصویر توسط معماری Lenet-5 به اثبات رسیده است، که همچنین باعث استفاده گسترده تر از آنها در وظایف بینایی کامپیوتری می شود.

معماری مدل Lenet-5

شبکه های عصبی مکرر

شبکه های عصبی بازگشتی (RNN) نوعی شبکه عصبی هستند که می توانند داده های متوالی را با پیگیری زمینه ورودی های قبلی پردازش کنند. بر خلاف شبکه‌های عصبی پیشخور معمولی که فقط داده‌های ورودی را به ترتیب ثابت پردازش می‌کنند، شبکه‌های عصبی مکرر می‌توانند ورودی‌هایی با طول‌های مختلف را مدیریت کنند و خروجی‌های وابسته به ورودی‌های قبلی تولید کنند.

به عنوان مثال، RNN ها را می توان در فعالیت های NLP مانند تولید متن یا ترجمه زبان استفاده کرد. یک شبکه عصبی مکرر را می توان روی جفت جملات در دو زبان مختلف آموزش داد تا ترجمه بین این دو زبان را یاد بگیرد. 

معماری یک شبکه عصبی بازگشتی

RNN جملات را یکی یکی پردازش می کند و بسته به جمله ورودی و خروجی قبلی در هر مرحله یک جمله خروجی تولید می کند. RNN می‌تواند ترجمه‌های صحیحی را حتی برای متون پیچیده تولید کند، زیرا ورودی‌ها و خروجی‌های گذشته را پیگیری می‌کند.

شبکه های کاملاً پیچیده

شبکه‌های کاملاً کانولوشنال (FCNs) نوعی از معماری شبکه عصبی هستند که معمولاً در وظایف بینایی رایانه مانند تقسیم‌بندی تصویر، تشخیص اشیا و طبقه بندی تصویر. FCN ها را می توان با استفاده از انتشار پس زمینه برای دسته بندی یا بخش بندی تصاویر به صورت سرتاسر آموزش داد. 

پس انتشار یک الگوریتم آموزشی است که گرادیان های تابع تلفات را با توجه به وزن شبکه عصبی محاسبه می کند. توانایی یک مدل یادگیری ماشین برای پیش‌بینی خروجی پیش‌بینی‌شده برای یک ورودی معین با یک تابع ضرر اندازه‌گیری می‌شود.

FCN ها صرفاً بر اساس لایه های کانولوشن هستند، زیرا هیچ لایه کاملاً متصلی ندارند، که آنها را نسبت به شبکه های عصبی کانولوشن معمولی سازگارتر و از نظر محاسباتی کارآمدتر می کند. شبکه‌ای که یک تصویر ورودی را می‌پذیرد و مکان و طبقه‌بندی اشیاء درون تصویر را خروجی می‌دهد، نمونه‌ای از FCN است.

شبکه ترانسفورماتور فضایی

یک شبکه ترانسفورماتور فضایی (STN) در وظایف بینایی کامپیوتری برای بهبود تغییرناپذیری فضایی ویژگی های آموخته شده توسط شبکه استفاده می شود. توانایی یک شبکه عصبی برای تشخیص الگوها یا اشیاء در یک تصویر مستقل از موقعیت جغرافیایی، جهت یا مقیاس آنها به عنوان تغییر ناپذیری فضایی شناخته می شود. 

شبکه ای که یک تبدیل فضایی آموخته شده را قبل از پردازش بیشتر به تصویر ورودی اعمال می کند، نمونه ای از STN است. این تبدیل می تواند برای تراز کردن اشیاء درون تصویر، تصحیح اعوجاج پرسپکتیو یا انجام سایر تغییرات فضایی برای بهبود عملکرد شبکه در یک کار خاص استفاده شود.

تبدیل به هر عملیاتی اطلاق می شود که یک تصویر را به نحوی تغییر می دهد، مانند چرخش، مقیاس بندی یا برش. تراز به فرآیند حصول اطمینان از اینکه اشیاء درون یک تصویر در مرکز، جهت‌گیری یا قرار گرفتن آنها به روشی ثابت و معنادار اشاره دارد. 

هنگامی که اشیاء در یک تصویر به دلیل زاویه یا فاصله ای که تصویر از آن گرفته شده، کج یا تغییر شکل داده می شود، اعوجاج پرسپکتیو رخ می دهد. اعمال چندین تبدیل ریاضی روی تصویر، مانند تبدیل‌های افین، می‌تواند برای تصحیح اعوجاج پرسپکتیو استفاده شود. تبدیل‌های افین خطوط موازی و نسبت‌های فاصله بین نقاط را برای تصحیح اعوجاج پرسپکتیو یا سایر تغییرات فضایی در یک تصویر حفظ می‌کنند.

تغییرات فضایی به هرگونه تغییر در ساختار فضایی یک تصویر، مانند چرخش، چرخش یا ترجمه تصویر اشاره دارد. این تغییرات می‌تواند داده‌های آموزشی را افزایش دهد یا چالش‌های خاصی را در کار، مانند تغییرات نور، کنتراست یا پس‌زمینه برطرف کند.



دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

For security, use of Google's reCAPTCHA service is required which is subject to the Google Privacy Policy and Terms of Use.

I agree to these terms.