یادگیری عمیق یا Deep learning (که به عنوان یادگیری ساختارمند عمیق یا  یادگیری سلسله وار هم شناخته می شود) بخشی از خانواده بزرگتر روش های یادگیریِ مبتنی بر نمایش داده های یادگیری است و در مقابل الگوریتم های مختص کار قرار دارد. یادگیری ممکن است نظارت شده، نیمه نظارت شده یا بدون نظارت باشد.

معماری های یادگیری عمیق همچون شبکه های عصبی عمیق، شبکه های باور عمیق و شبکه های عصبی بازگشتی در زمینه هایی از جمله بینایی رایانه، شناسایی گفتار، پردازش زبان طبیعی، شناسایی صوت، فیلترینگ شبکه های اجتماعی، ترجمه ماشینی، بیوانفورماتیک، طراحی دارو و برنامه بازی های تخته ای استفاده شده اند که در آن ها نتایجی قابل قیاس با متخصصین انسانی و بعضاً برتر از آن ها ارائه کرده اند.

مدل های یادگیری عمیق به شکلی نه چندان روشن از الگوهای پردازش اطلاعاتی و  ارتباطی در سیستم های عصبی زیستی الهام گرفته شده اند اما تفاوت های مختلفی در ویژگی های ساختاری و عملکردی با مغزهای زیستی (به ویژه مغز انسان) دارند، که باعث عدم همخوانی آنها با شواهد علوم اعصاب میشود.

تعریف یادگیری عمیق


یادگیری عمیق، دسته ای از الگوریتم های یادگیری ماشین است که:

  • از آبشاری از لایه های چندگانهِ واحدهای پردازش غیرخطی برای استخراج و تبدیل ویژگی استفاده میکنند. هر لایه تالی، از خروجی لایه قبل به عنوان ورودی استفاده میکند.
  • به شکلی نظارت شده (مثل طبقه بندی) و یا بدون نظارت (مثل تحلیل الگو) یادگیری میکنند.
  • لایه های چندگانه ای از نمایش را یادگیری میکنند که متناظر با سطوح مختلفی از انتزاعات هستند؛ این سطوح سلسله ای از مفاهیم را تشکیل میدهند

بیشتر مدل های یادگیری عمیق مدرن، بر شبکه های عصبی مصنوعی مبتنی هستند، گرچه ممکن است شامل فرمول های گزاره ای یا متغیرهای پنهانِ سازمان یافتهِ لایه ای در مدل های مولد همچون گره ها در شبکه های باور عمیق و ماشین های بولتزمن عمیق نیز باشند.

در یادگیری عمیق، هر سطح یاد میگیرد که داده های ورودی خود را به یک نمایش اندکی مجردتر و ترکیبی تر تبدیل کند. در یک کاربرد شناسایی تصویر، ورودی خام میتواند ماتریسی از پیکسل ها باشد؛ اولین لایه نمایشی ممکن است پیکسل ها را مجرد کند و لبه ها را کدگذاری کند؛ لایه دوم ممکن است چینش لبه ها را بسازد و کدگذاری کند؛ لایه سوم ممکن است بینی و چشم ها را کدگذاری کند؛ و لایه چهارم ممکن است تشخیص دهد که تصویر، شامل یک چهره است. چیزی که اهمیت دارد، این است که یک پروسه یادگیری عمیق، به خودی خود میتواند یاد بگیرد که کدام ویژگی ها بطور بهینه در کدام سطح قرار دهد. (البته، این مطلب نیاز به تنظیم دستی را کاملاً از بین نمیبرد؛ برای مثال، تعداد متغیر لایه ها و اندازه لایه میتواند درجات انتزاعی مختلفی ایجاد کند.)

“عمیق” در “یادگیری عمیق” به تعداد لایه هایی که داده ها از آنها منتقل میشوند اشاره دارد. بطور دقیق تر، سیستم های یادگیری عمیق، دارای یک عمق اساسی برای مسیر تخصیص اعتبار  (CAP) هستند. CAP زنجیره تبدیلات از ورودی به خروجی است.  CAP ها ارتباطات علّی بالقوه میان ورودی و خروجی را توصیف میکنند. برای یک شبکه عصبی پیشخور، عمق CAP ها، همان عمق شبکه و برابر با تعداد لایه های پنهان بعلاوه یک است (زیرا لایه خروجی نیز پامترسازی میشود). برای شبکه های عصبی بازگشتی، که در آن ها ممکن است یک سیگنال بیشتر از یکبار در یک لایه منتشر شود، عمق CAP بطور بالقوه بینهایت است. هیچ آستانه مشخص جهانی برای جداسازی یادگیری عمیق و یادگیری کم عمق وجود ندارد، اما بیشتر محققان توافق دارند که یادگیری عمیق دارای عمق CAP بیشتر از 2 است. نشان داده شده است که CAP با عمق 2 یک تقریب زن سراسری است، به این معنا که میتواند هر تابعی را تقلید کند. لایه های بیشتر، فراتر از این به توانایی تقریب زنی تابعی شبکه اضافه نمیکنند. لایه های اضافه تر در یادگیری ویژگی ها کمک میکنند. معماری های یادگیری عمیق را اغلب با یک روش لایه به لایه حریصانه میسازند. یادگیری عمیق به بازگشایی این انتزاعات و انتخاب ویژگی هایی که عملکرد را بهبود میدهند کمک میکند.ویژگی ها، عملکرد را بهبود میدهند. برای کارهای یادگیری نظارت شده، روش های یادگیری عمیق با انتقال داده ها به نمایش های میانی فشرده، مشابه مولفه های اصلی، نیاز به مهندسی ویژگی را برطرف میکنند، و ساختارهایی لایه ای بدست میدهند که افزونگی را از نمایش حذف میکنند. الگوریتم های یادگیری عمیق را میتوان روی فعالیت های نظارت نشده اِعمال کرد. این موضوع اهمیت دارد زیرا داده های برچسب گذاری نشده بیشتر از داده های برچسب گذاری شده هستند. مثالهایی از ساختارهای عمیقی که میتوان آنها را به شکلی نظارت نشده آموزش داد، فشرده گرهای تاریخچه عصبی و شبکه های باور عمیق هستند.

تاریخچه یادگیری عمیق


عبارت یادگیری عمیق توسط رینا دچر در سال 1986 به جامعه یادگیری ماشین، و توسط ایگور آیزنبرگ در سال 2000 در شبکه های عصبی مصنوعی در چارچوب نورون های آستانه ایِ بولی معرفی شد. اولین الگوریتم موثر و عمومی یادگیری برای پرسپترون های چندلایه، پیشخور، عمیق و نظارت شده توسط الکسی ایواخنکو و لاپا در 1965 منتشر شد.  مقاله ای در 1971، یک شبکه عمیق با 8 لایه را توصیف کرد که توسط الگوریتم روش گروهی مهار داده ها­ آموزش داده میشد. سایر معماری های موثر یادگیری عمیق، به ویژه آنهایی که برای بینایی رایانه ساخته شدند، با نئوکاگنیترونِ معرفی شده توسط کونیهیکو فوکوشیما در 1980 آغاز شدند. در 1989، یان لیکان و دیگران الگوریتم نشر عقبگرد را، که از 1970 به عنوان حالت معکوس مشتق گیری اوتومات وجود داشت،  روی یک شبکه عصبی عمیق با هدف شناسایی کدهای پستی دست نویس روی نامه استفاده کردند. گرچه این الگوریتم کار میکرد، اما آموزش آن 3 روز طول میکشید.

تا سال 1991 چنین سیستم هایی برای شناسایی ارقام دست نویسِ منفردِ 2 بعدی استفاده میشدند، در حالیکه شناسایی اشیاء 3 بعدی با انطباق تصاویر دو بعدی با یک مدل شیء سه بعدیِ دست ساز انجام میشد. وِنگ و دیگران اظهار کردند که مغز انسان از یک مدل سه بعدی یکپارچه استفاده نمیکند و در 1992 کرسپترون (Cresceptron) را منتشر نمودند، که روشی برای انجام شناسایی اشیاء سه بعدی در صحنه های درهم ریخته بود. از آنجا که این روش از تصاویر طبیعی استفاده میکرد، کرسپترون سرآغازی برای یادگیری بصریِ چندمنظوره برای جهان های سه بعدیِ طبیعی بود. کرسپترون، آبشاری از لایه ها، شبیه نئوکاگنیترون است. اما در حالیکه نئوکاگنیترون برای ادغام دستی ویژگی ها به برنامه نویس انسان نیاز داشت، کرسپترون تعداد نامحدودی ویژگی را در هر لایه بدون نظارت یادگیری میکرد، که در آن هر ویژگی با یک هسته پیچشی نمایش داده میشد. کرسپترون هر شیء یادگیری شده را با تحلیل پسین در شبکه، از یک صحنه درهم ریخته جدا میکرد. بیشینه تجمع، که امروزه اغلب توسط شبکه های عصبی عمیق اتخاذ میشود (مثلاً آزمایش های ImageNet)، اولین بار در کرسپترون به جهت کاهش وضوح مکانی با ضریب (2*2) به 1 در آبشار برای تعمیم دهی بهتر استفاده شد. در 1994، آندره دی کاروالو، همراه مایک فِرهارست و دوید بیسِت، نتایجی عملی از یک شبکه عصبی بولی چندلایه، که به عنوان شبکه عصبی بی وزن هم شناخته میشود، منتشر کردند که از یک مُدول شبکه عصبیِ استخراج ویژگی خودسازمانده سه لایه (SOFT) همراه با یک مدول شبکه عصبی طبقه بندی چندلایه تشکیل میشد که بطور مستقل آموزش داده میشدند. هر لایه در مدول استخراج ویژگی، ویژگی ها را با پیچیدگی افزایشی در مقایسه با لایه قبلی استخراج میکرد. در 1995، برندن بری نشان داد که (طی دو روز) آموزش شبکه ای شامل شش لایه کاملاً متصل و چند صد واحد پنهان توسط الگوریتم بیدار-خواب ممکن است، که با همکاری پیتر دایان و هینتون توسعه داده شده بود. فاکتورهای زیادی باعث پایین آمدن سرعت میشوند، از جمله مسئله گرادیان صفرشونده که در 1991 توسط سپ هوچریتر تحلیل شد. مدل های ساده تر که از ویژگی های دست ساز مختص کار استفاده میکنند مثل فیلترهای گابور و ماشین های بردار پشتیبانی (SVM)، به دلیل هزینه محاسباتی ANNها و عدم درک اتصالات شبکه های زیستی مغز، در دهه 1990 و 2000 انتخابی محبوب بودند. هم یادگیری عمیق (مثل تورهای بازگشتی) و هم یادگیری کم عمق ANNها سالیان زیادی بررسی شده اند. این روش ها هرگز ازتکنولوژی مدل آمیخته/ مدل مارکوف پنهانِ گوسیِ دست سازِ درونی غیریکنواخت (GMM-HMM)  مبتنی بر مدل های مولد گفتار که متمایزگرایانه آموزش داده شده اند، عملکرد بهتری نداشتند. مشکلات کلیدی، از جمله صفر شدن گرادیان و ساختار همبستگی زمانی ضعیف در مدل های پیشگوی عصبی، مورد تحلیل قرار گرفته اند. مشکلات دیگر، عدم وجود داده های آموزشی و قدرت محاسباتی محدود بودند.

بیشتر محققانِ شناسایی گفتار، از تورهای عصبی به مدلسازی تمایزگرایانه روی آوردند. یک استثنا در این زمینه، موسسه اس آر آی اینترنشنال در اواخر دهه 1990 بود. اس آر ای که توسط ان اس ای و دارپا دولت امریکا بنیان گذاری شده بود، شبکه های عصبی عمیق را در شناسایی متکلم و گفتار بررسی میکرد. تیم شناسایی متکلم هِک اولین موفقیت بزرگ را با شبکه های عصبی عمیق در پردازش گفتار در ارزیابی 1998 شناسایی متکلمِ موسسه ملی استانداردها و فناوری بدست آورد. گرچه اس آر آی با شبکه های عصبی عمیق در شناسایی متکلم توفیق کسب کرد،  اما در کسب موفقیت مشابهی در شناسایی گفتار ناموفق بود.  اصلِ بالا بردن ویژگی های “خام” نسبت به بهینه سازی دست ساز، اولین بار با موفقیت در معماری خودرمزنگار عمیق روی اسپکتوگرام “خام” یا ویژگی های فیلتر بانک خطی در اواخر دهه 1990 بررسی شد، که برتری آن را نسبت به ویژگی های مل-کِپسترال که شامل سطوح ثابت تبدیل از اسپکتوگرام هستند نشان داد. ویژگی های خام گفتار و شکل موج ها، بعداً نتایج مقیاس بزرگ فوق العاده ای تولید کردند. بسیاری از جنبه های شناسایی گفتار تحت سیطره یک روش یادگیری عمیق به نام حافظه کوتاه مدت بلند (LSTM) قرار گرفتند که یک شبکه عصبی بازگشتی بود و هاچریتر و اشمیدهوبر در 1997 آن را منتشر کردند. RNN های LSTM از مسئله گرادیان صفر شونده اجتناب میکنند و میتوانند کارهای “یادگیری بسیار عمیقی” را یاد بگیرند که نیازمند خاطرات اتفاقاتی هستند که هزاران گام زمانی گسسته قبل تر افتادند، چیزی که برای گفتار اهمیت دارد. در سال 2003، LSTM رقابت خود را با گفتارشناس های سنتی در برخی کارهای خاص شروع کرد و بعداً در توده های LSTM RNN  با طبقه بندی زمانی اتصالگر (CTC) ترکیب شد. در 2015، طبق گزارش ها، شناسایی گفتار گوگل بهبود عملکردی 49% را از طریق LSTM آموزش دیده با CTC تجربه کرد، که از طریق جستجوی صدایی گوگل (Google Voice Search) فراهم شده بود. در سال 2006، مقالاتی از جئوف  هینتون، روسلان سالاخوتدینوف، اُسیندرو و تِه نشان دادند چگونه یک شبکه عصبی پُرلایهِ پیشخور را با در نظرگرفتن نوبتیِ هر لایه به عنوان یک ماشین بولتزمن محدودِ بی نظارت، و سپس تنظیم کردن آن با استفاده از پس-نشر نظارت شده، میتوان به شکلی اثربخش، لایه به لایه پیش-آموزش داد. این مقالات برای تورهای باور عمیق به یادگیری رجوع داشتند. یادگیری عمیق، بخشی از سیستم های مدرن در رشته های مختلف است، به ویژه بینایی رایانه و شناسایی گفتار خودکار (ASR). نتایج آزمایش های ارزیابی متعارف مثل  TIMIT (ASR) و MNIST (طبقه بندی تصویر)، و نیز گستره وسیعی از فعالیت های شناسایی گفتار با واژگان زیاد، بهبود مستمری داشته اند. شبکه های عصبی پیچشی (CNN) برای ASR، توسط CTC جایگزین شدند اما LSTM در بینایی رایانه موفق تر است. تاثیر یادگیری عمیق در صنعت در اوایل سال های 2000 آغاز شد که به گفته یان لیکان، CNN ها حدود 10% تا 20% تمام چک های نوشته شده در امریکا را پردازش میکردند. کاربردهای صنعتی یادگیری عمیق در شناسایی گفتارِ مقیاس بزرگ حدود سال 2010 شروع شد.

محدودیت های مدل های مولد عمیق گفتار و امکان عَملی شدن تورهای عصبی عمیق (DNN) با داشتن سخت افزارهای قوی تر و مجموعه داده های بزرگتر، انگیزه ایجاد کارگاه آموزشی NIPS 2009 راجع به یادگیری عمیق برای شناسایی گفتار بود. باور بر این بود که پیش-آموزش DNN ها با استفاده از مدل های مولد تورهای باور عمیق (DBN)، بر محدودیت های اصلی تورهای عصبی فائق می آید. با این حال، معلوم شد که جایگزینی پیش-آموزش با مقدار زیادی از داده های آموزشی برای پس-نشرِ سرراست هنگام استفاده از DNN ها با لایه های خروجی بزرگِ وابسته به زمینه، نرخ خطایی بسیار پایینتر از مدل ادغامی مدرن گوسی (GMM) یا مدل مارکوف پنهان (HMM) و نیز سیستم های مدل مولد-بنیان پیشرفته تر بدست میدهد. طبیعتِ خطاهای شناسایی که توسط این دو نوع سیستم تولید میشد مشخصاً متفاوت بود، و نگرشی تکنیکی راجع به چگونگی ادغام یادگیری عمیق با سامانه بسیار موثر و سریع کدگشایی گفتارِ مورد استفاده در اکثر سیستم های شناسایی گفتار، فراهم مینمود. یک تحلیل حدود سالهای 2009-2010، GMM (و سایر مدل های گفتار تولیدی) را از مدل های DNN متمایز کرد و موجب تشویق سرمایه گذاری صنعتیِ زودهنگام در یادگیری عمیق برای شناسایی گفتار شد، و در نهایت منجر استفاده گسترده و فراگیر در آن صنعت شد. این تحلیل با نمایش عملکرد قابل مقایسه میان DNN های تمایزگر و مدل های مولد (کمتر از 1.5% نرخ خطا) انجام شد. در سال 2010 محققین با اتخاذ لایه های خروجی بزرگِ DNN برپایه وضعیت های HMM وابسته به زمینه که توسط درخت های تصمیم ساخته شده بودند، یادگیری عمیق را از TIMIT به شناسایی گفتار با واژه نامه بزرگ، گسترش دادند. پیشرفت های سخت افزاری موجب احیاء علاقه به این زمینه شد. در سال 2009، اِن ویدیا (Nvidia) در چیزی که “انفجار بزرگ” یادگیری عمیق نامید میشد سهم داشت، “زیرا شبکه ها عصبی یادگیری عمیق با واحدهای پردازنده گرافیکی (GPU) ان ویدیا آموزش داده میشدند.” همان سال، Google Brain از GPU های Nvidia برای ایجاد DNN هایی توانا استفاده کرد. در همین هنگام، Ng کشف کرد که GPU ها میتوانند سرعت سیستم های یادگیری عمیق را تا حدود 100 برابر افزایش دهند. به ویژه، GPU ها برای محاسبات ماتریس/برداری حاضر در یادگیری ماشین، مناسب هستند. GPU ها، الگوریتم های یادگیری را به مراتب سریعتر میکنند و زمان اجرا را از چند هفته به چند روز کاهش میدهند. میتواند از سخت افزارهای ویژه و بهینه سازی های الگوریتمی برای پردازش اثربخش بهره برد.

شبکه های عصبی


شبکه های عصبی مصنوعی

شبکه های عصبی مصنوعی (ANN)  یا سیستم های اتصالگر، سیستم های محاسبه گری هستند که از شبکه های عصبی زیتسیِ تشکیل دهنده ذهن حیوانات الهام گرفته شده اند. این سیستم ها، با بررسی مثال ها، فعالیت ها را یادگیری می کنند (به عبارت دیگر عملکرد خود را در در انجام فعالیت ها به مرور بهبود می دهند) و عموماً این اتفاق بدون هیچ برنامه نویسی مختص به فعالیتی انجام می شود. برای مثال، در شناسایی تصویر، این شبکه ها می توانند یاد بگیرند که تصاویر شامل گربه را با تحلیل تصاویر مثالی که قبلاً بطور دستی به عنوان “با گربه” یا “بدون گربه” برچسب گذاری شدند، شناسایی کنند و از این نتایجِ تحلیلی برای  شناسایی گربه در تصاویر دیگر استفاده نمایند. این شبکه ها بیشترین استفاده را در کاربردهایی دارند که بیان آنها با یا یک الگوریتم سنتی که از برنامه نویسی قاعده-بنیان استفاده میکند، دشوار است. یک ANN بر مجموعه ای از واحدهای متصل یا گره، به نام نورون های مصنوعی (مشابه نورون های زیستی در یک مغز زیستی)، مبتنی است. هر اتصال (سیناپس) میان نورون ها می تواند سیگنالی را از یک نورون به نورون دیگر انتقال دهد. نورون دریافت کننده (پُست سیناپتیک) می تواند سیگنال (ها) و سپس نورون های پایین دستی سیگنال متصل به آن(ها) را پردازش کند. نورون ها ممکن است دارای حالت باشند، که معمولاً با اعداد حقیقی بین 0 و 1 نمایش داده میشود. نورون ها و سیناپس ها همچنین ممکن است وزن داشته باشند که با پیشرفت یادگیری، تنظیم می شود. این وزن، قدرت سیگنالی را که به نورون های پایین دستی فرستاده میشود، افزایش یا کاهش می دهد. معمولاً نورون ها در لایه ها سازماندهی می شوند. لایه های مختلف ممکن است تبدیلات مختلفی روی ورودی خود، اِعمال کنند. سیگنال ها از اولین لایه (ورودی) به آخرین لایه (خروجی) سفر می کنند، و در این بین ممکن است لایه هایی را چند بار طی کنند. هدف آغازین رویکرد شبکه های عصبی، حل مسئله به روش ذهن انسان بود. با مرور زمان، توجه صرفاً روی برابری با برخی توانایی های خاصِ ذهنی معطوف شد، و به انحرافاتی از زیست شناسی، مثل پس-نشر، یا انتقال اطلاعات در جهت عکس و تنظیم شبکه برای انعکاس این اطلاعات، منجر شد. شبکه های عصبی در فعالیت های متنوعی استفاده شده اند، از جمله بینایی رایانه، شناسایی گفتار، ترجمه ماشینی، فیلترینگ شبکه های اجتماعی، بازی های رومیزی و بازی های ویدیویی و تشخیص پزشکی. تا سال 2017، شبکه های عصبی معمولاً از چندهزار تا چندمیلیون واحد و چند میلیون اتصال برخوردار هستند. گرچه این عدد به مراتب کوچکتر از تعداد نورون های مغز انسان است، اما این شبکه ها میتوانند فعالیت های زیادی را در سطح فرا انسانی انجام دهند (مثل شناسایی چهره، بازی “Go” و غیره).

شبکه های عصبی عمیق

شبکه عصبی عمیق (DNN)، یک نوع شبکه عصبی مصنوعی (ANN) با لایه های متعددی بین ورودی و خروجی است. DNN روابط ریاضی صحیح را برای تبدیل ورودی به خروجی پیدا میکند، خواه این رواط خطی باشند خواه غیرخطی. شبکه با حرکت در لایه ها، احتمال هر خروجی را محاسبه میکند. برای مثال، DNNای که آموزش دیده تا نژادهای سگ را تشخیص دهد، تصویر داده شده را بررسی و احتمال اینکه سگ داخل تصویر، نژادی خاص باشد را محاسبه میکند. کاربر میتواند نتایج را بررسی و تعیین کند که شبکه چه احتمالاتی را باید نشان دهد (مثلاً احتمالات بالاتر از یک مقدار خاص و غیر) و برچسب پیشنهادی را بازگرداند. هر محاسبه ریاضی این چنینی را به عنوان یک لایه در نظر میگیرند، و DNNهای پیچیده لایه های زیادی دارند، لذا نام شبکه های “عمیق” برایشان انتخاب شده است. هدف نهایی این است که شبکه ای آموزش داده شود تا تصویر را به ویژگی های آن تجزیه، روندهای موجود در تمام نمونه ها را شناسایی، و تصاویر جدید را طبق شباهت هایشان بدون نیاز به ورودی انسانی طبقه بندی کند. DNNها میتوانند روابط پیچیده غیرخطی را مدل سازی کنند. معماری های DNN، مدل هایی ترکیبی تولید میکنند که در آن شیء به عنوان ترکیبی لایه ای از داده های اولیه بیان میشود. لایه های اضافی، ترکیب ویژگی های لایه های پایین تر را ممکن میسازند، که بطور بالقوه موجب مدل سازی داده ها با واحدهایی کمتر از یک شبکه کم عمق با عملکرد مشابه میشود. معماری های عمیق شامل اَشکال متعدی از چند روش اساسی هستند. هر معماری در زمینه ای خاص موفق بوده است. مقایسه عملکرد چند معماری  همواره ممکن نیست، مگر اینکه روی یک مجموعه داده ارزیابی شوند. DNNها معمولاً شبکه هایی پیشخور هستند که در آن داده ها از لایه ورودی، بدون حلقه، به سمت لایه خروجی جریان پیدا میکند. ابتدا DNN نگاشتی از نورون های مجازی درست میکند و به اتصالات میان آنها، مقادیر عددی تصادفی یا “وزن” تخصیص میدهد. وزن ها و ورودی ها ضرب میشوند و یک خروجی بین 0 و 1 را بازمیگردانند. اگر شبکه بطور دقیق الگوی مورد نظر را تشخیص ندهد، یک الگوریتم وزن ها را تنظیم میکند. به این طریق الگوریتم میتواند تاثیر برخی پارامترها را بیشتر کند، تا وقتی که محاسبات ریاضی صحیح را برای پردازش کامل داده ها پیدا کند. شبکه های عصبی بازگشتی (RNN)، که در داده های آنها میتوانند در هر جهتی جریان پیدا کنند، برای کاربردهایی مثل مدل سازی زبان استفاده میشوند. حافظه کوتاه مدت بلند بطور ویژه ای برای این مصرف اثربخش است. شبکه های عصبی عمیق پیچشی (CNN) در بینایی رایانه استفاده میشوند. CNNها همچنین در مدل سازی آکوستیک برای شناسایی گفتار خودکار (ASR) استفاده میشوند.

چالش ها

مثل ANNها، ممکن است مشکلات زیادی برای DNNهایی که ساده لوحانه آموزش داده شدند پیش آید. دو مسئله متداول، بیش-برازش و زمان محاسبه هستند. به دلیل اضافه شدن لایه های انتزاعی، که امکان مدل سازی وابستگی های نادر را در داده های آموزش ایجاد میکند، DNNها مقابل بیش-برازش آسیب پذیر هستند. روش های منظم سازی از قبیل هرس کردن واحد اواخِنکو، یا زوال وزنی (منظم سازی نرم 2) یا تُنُکی (منظم سازی نرم 1) را میتوان طی آموزش برای مقابله با بیش-برازش استفاده کرد. به عنوان گزینه ای دیگر، منظم سازیِ بیرون انداز، طی آموزش، واحدهایی را بطور تصادفی از لایه های پنهان حذف میکند. این کار به حذف وابستگی های نادر کمک میکند. در نهایت، داده ها را میتوان با روش هایی مثل برش و چرخش بگونه ای افزون کرد که مجموعه های آموزشی کوچکتر اندازه بزرگتری پیدا کنند تا احتمال بیش-برازش کاهش یابد. DNNها باید پارامترهای آموزشی فراوانی را در نظر بگیرند، مثل اندازه (تعداد لایه ها و تعداد واحدها در هر لایه)، سرعت یادگیری و وزن های اولیه. جاروب کردن فضای پارامتر برای پیدا کردن پارامترهای بهینه ممکن است به علت هزینه زمانی و منابع محاسباتی بهینه نباشد. حُقه های مختلفی مثل دسته سازی (محاسبه گرادیان در چند مثال آموزشی بطور همزمان، نه جداگانه) محاسبه را تسریع میکنند. توانایی های پردازشی  وسیع در معماری های با هسته های زیاد (مثل GPUها، یا Intel Xeon Phi ) به علت تناسب این معماری های پردازشی با محاسبات ماتریسی و برداری، آموزش را بطور چشمگیری تسریع کرده اند. به عنوان گزینه ای دیگر، ممکن است مهندسان به دنبال انواع دیگری از شبکه های عصبی با الگوریتم های آموزشی سرراست تر و همگراتر بگردند.CMAC (کنترلگر محاسباتی مدل مخچه) یک چنین نوع شبکه عصبی است و نیازمند نرخ یادگیری یا وزن های اولیه تصادفی نیست. همگرایی فرایند آموزشی را با یک دسته داده جدید میتوان در یک گام تضمین کرد، و پیچیدگی محاسباتی الگوریتم آموزشی نسبت به تعداد نورون های درگیر، خطی است.

کاربردهای یادگیری عمیق


شناسایی خودکار گفتار

شناسایی خودکار گفتارِ مقیاس بزرگ اولین و قانع کننده ترین کاربرد موفق یادگیری عمیق است. LSTM RNNها میتوانند فعالیت های “یادگیری خیلی عمیق” را شامل بازه های چند ثانیه ای گفتار، جدا شده توسط هزاران گام زمانی گسسته که هر گام متناظر با حدود 10 میلی ثانیه است، یادگیری کنند. LSTM بهمراه دروازه های فراموشی با تشخیص دهنده های سنتی گفتار در برخی فعالیت های خاص رقابت دارد. موفقیت اولیه در شناسایی گفتار مبتنی بر فعالیت های مقیاس کوچک بر پایه TIMIT بود. این مجموعه داده شامل 630 متکلم از هشت گویش اصلی انگلیسی امریکایی است که در آن هر متکلم 10 جمله را میخواند. اندازه کوچک آن باعث میشود ترکیبات مختلفی را بتوان امتحان کرد. مهمتر از این، فعالیت TIMIT به شناسایی رشته های فونی مربوط میشود، که برخلاف شناسایی رشته های لغتی، مدل های زبانی دوگرام ضعیف را مجاز میشمارد. این باعث میشود قدرتِ جنبه های مدل سازی آکوستیکِ شناسایی گفتار، آسانتر تحلیل شود. 

ظهور DNNها برای شناسایی متکلم در اواخر دهه 1990 و برای شناسایی گفتار، حدود 2009-2011 و نیز ظهور LSTM حدود 2003-2007 پیشرفت را در هشت شاخه اصلی زیر تسریع کرد:

  • آموزش و رمزگشایی سریع DNN و افزایش مقیاس آن
  • آموزش تمایزگرایانه رشته
  • پردازش ویژگی توسط یادگیری عمیق با درک درست مکانیزم های اساسی
  • اتخاذ DNNها و مدل های عمیق مرتبط
  • یادگیری انتقال و چند-کاری توسط DNNها و مدل های عمیق مرتبط
  • CNNها و چگونگی طراحی بهینه آن ها جهت بهره گرفتن از دانش حوزه گفتار
  • RNN و اَشکال LSTM غنی آن
  • سایر انواع مدل های عمیق از جمله مدل های تانسور-پایه و مدل های مولد/تمایزگر عمیق یکپارچه

تمام سیستم های تجاری عمدهِ شناسایی گفتار (مثل جستجوهای صوتی مایکروسافت کورتانا، ایکس باکس، مترجم اسکایپ، آمازون الکسا، Google Now، اپل سیری، بدیو و آی فلای تک و گستره ای از محصولات گفتاری Naunce و غیره) بر یادگیری عمیق مبتنی هستند.

شناسایی تصویر

یک مجموعه متداول ارزیابی برای طبقه بندی تصویر، مجموعه پایگاه داده MINIST است. MINIST متشکل از ارقام دست نویس و شامل 60000 مثال آموزشی و 10000 مثال آزمایشی است. از طرف دیگر اندازه کوچک TIMIT به کاربران اجازه استفاده از چندین پیکربندی را میدهد. فهرستی جامع از نتایج این مجموعه در دسترس است.شناسایی تصویر مبتنی بر یادگیری عمیق، “فرا انسانی” شده است و نتایج دقیق تری نسبت به شرکت کنندگان انسانی تولید میکند. این اتفاق اولین بار در سال 2011 افتاد. وسایل نقلیه آموزش دیده با یادگیری عمیق اکنون چشم اندازهای دوربینی 360 درجه ای را تفسیر میکنند. مثالی دیگر، آنالیز نوین اختلال شناسی چهره (FDNA) است که برای تحلیل ناهنجاری های شکلی انسان استفاده میشود و به پایگاه داده ای بزرگ از سندروم های ژنتیکی متصل است.

پردازش هنر بصری

افزایش روزافزون کاربرد تکنیک های یادگیری عمیق در فعالیت های متنوع هنر بصری، ارتباط نزدیکی با پیشرفت انجام شده در شناسایی تصویر دارد. DNNها خود را در برخی زمینه ها، توانا نشان داده اند، برای مثال در شناسایی دوره سبک یک نقاشی داده شده، ب) “تسخیر” سبک یک نقاشی داده شده و اِعمال آن به طریقی چشم نواز روی یک عکس دلخواه و پ) تولید تصاویر قابل توجه برمبنای زمینه های ورودی بصری تصادفی.

پردازش زبان طبیعی

از اوایل سال های 2000 شبکه های عصبی برای پیاده سازی مدل های زبانی مورد استفاده بوده اند. LSTM به پیشرفت ترجمه ماشینی و مدل سازی زبانی کمک کرد. سایر تکنیک های کلیدی در این زمینه، نمونه گیری منفی و نشاندن لغات هستند. نشاندن لغت را، مثل word2vec، میتوان به عنوان لایه ای نمایشی در یک معماری یادگیری عمیق در نظر گرفت که یک لغت اتمی را به نمایش مکانی لغت نسبت به سایر لغات در پایگاه داده تبدیل میکند؛ این موقعیت به عنوان یک نقطه در فضایی برداری نمایش داده میشود. استفاده از لغت-نشاندن به عنوان یک لایه ورودی RNN به شبکه امکان تجزیه اثربخش جملات و عبارات را با استفاده از یک گرامر برداریِ ترکیبی میدهد. یک گرامر برداری ترکیبی را میتوان به عنوان گرامر مستقل از متن احتمالی (PCFG) که توسط یک RNN پیاده سازی شده، در نظر گرفت. خودرمزنگارهای بازگشتی که برپایه لغت-نشانی ساخته شدند میتوانند تشابه جملات را ارزیابی و تفسیر را شناسایی کنند. معماری های عصبی عمیق، بهترین نتایج را برای تفسیر آماری، تحلیل احساس، بازیابی اطلاعات، فهم زبان گفتگو، ترجمه ماشینی، پیوند موجود مفهومی، شناسایی سبک نوشتار، طبقه بندی متن و زمینه هایی دیگر بدست میدهند. توسعه های اخیر، نشاندن لغت را به نشاندن جمله تعمیم میدهند. ترجمه گوگل (GT) از یک شبکه بزرگ حافظه کوتاه مدت بلندِ پایانه به پایانه استفاده میکند. ترجمه ماشینی عصبی گوگل (GNMT) از یک روش ترجمه ماشینی مثال-پایه استفاده میکند که در آن سیستم “از میلیون ها مثال، یاد میگیرد.” این شبکه، جملاتِ کامل را درجا ترجمه میکند، نه قطعه به قطعه. ترجمه گوگل بیش از صد زبان را پشتیبانی میکند. این شبکه “معنای جملات را رمزنگاری میکند، و صرفاً ترجمه های عبارت به عبارت را حفظ نمیکند.” GT از زبان انگلیسی به عنوان میانجی بین اکثر جفت های زبانی استفاده میکند.

کشف دارو و سم شناسی

درصد بزرگی از داروهای بالقوه، از نظر قانونی تصویب نمیشوند. این عدم تصویب به علت اثربخشی (اثر روی هدف) ناکافی، تعاملات (اثر خارج از هدف) نامطلوب، یا عوارض سمی پیش بینی نشده است. تحقیقات، استفاده از یادگیری عمیق را جهت پیش بینی هدف زیست مولکولی، عوارض خارج از هدف و سمی مواد شیمیایی محیطی در تغذیه، محصولات و داروهای خانگی بررسی کرده است. AtomNet یک سیستم یادگیری عمیق برای طراحی داروی منطقیِ ساختار-بنیان است. اتم نت برای پیش بینی زیست مولکول های بالقوه جدید برای بیماری هایی مثل ویروس اِبولا و ام اس استفاده شده است.

مدیریت رابطه مشتری

یادگیری تقویتی عمیق برای تقریب ارزش فعالیت های ممکنِ بازاریابی، که با متغیرهای RFM تعریف شده، مورد استفاده بوده است. نشان داده شده است که تابع ارزش تخمینی، دارای تفسیری طبیعی به عنوان ارزش طول عمر مشتری است.

سیستم های توصیه گر

سیستم های توصیه گر از یادگیری عمیق برای استخراج ویژگی های معنادار برای یک مدل فاکتور پنهان جهت توصیه موسیقی برمبنای محتوی استفاده کرده اند. یادگیری عمیقِ چندمَنظَری برای یادگیری اولویت کاربر از چند حوزه، استفاده شده است. این مدل از یک روش همکارانه ترکیبی و محتوی-بنیان استفاده میکند و توصیه دهی را در فعالیت های چندگانه تقویت می کند.

بیوانفورماتیک

یک ANN خودرمزنگار در بیوانفورماتیک برای پیش بینی تفسیرهای آنتولوژی ژن ها و روابط عملکردی ژن ها استفاده شده است. در انفورماتیک پزشکی، یادگیری عمیق برای پیش بینی کیفیت خواب بر اساس داده های دستگاه های پوشیدنی و پیش بینی ناراحتی های جسمی از داده های پرونده الکترونیک بیمار استفاده شده است. یادگیری عمیق در بهداشت نیز موثر نشان داده است.

تبلیغات در تلفن همراه

پیدا کردن مخاطبین مناسب برای تبلیغ در تلفن همراه همواره چالش برانگیز است، زیرا پیش از ایجاد گروه هدف و استفاده از آن در سرویس تبلیغات توسط هر سرو تبلیغاتی، نقاط داده ای زیادی باید در نظر گرفته و همسان سازی شوند.  یادگیری عمیق در تفسیر مجموعه های داده ای بزرگ تبلیغاتی و با بعد زیاد استفاده شده است. بسیاری از نقاط داده ای طی چرخه تبلیغات اینترنتی درخواست/سرویس/کلیک جمع آوری میشوند. این اطلاعات میتواند مبنای یادگیری ماشین را برای بهبود انتخاب تبلیغ ایجاد کند.

بازیابی تصویر

یادگیری عمیق در مسائل وارون مثل حذف نویز، فرا تفکیک پذیزی، پُرکردن تصویر، و رنگ آمیزی فیلم با موفقیت استفاده شده است. این کاربردها شامل روش های یادگیری مثل “میدان های انقباضی برای بازیابی اثر بخش تصویر” است که روی مجموعه داده یک تصویر آموزش میبیند، و نیز “پیش تصویر عمیق”، که روی تصویری که باید بازیابی شود یادگیری میکند.

شناسایی کلاهبرداری مالی

یادگیری عمیق با موفقیت در حال استفاده در کاربردهای شناسایی کلاهبرداری مالی و ضد پول شویی است. “سیستم شناسایی ضد پول شویی میتواند روابط و شباهت های میان داده ها را شناسایی و رصد کند، و در ادامه، میتواند ناهنجاری ها را شناسایی یا برخی اتفاقات خاص را طبقه بندی و پیش بینی کند.” این راه حل، هم از تکنیک های یادگیری نظارت شده استفاده میکند، مثل طبقه بندی تراکنش های مشکوک، و هم یادگیری بی نظارت، مثل شناسایی ناهنجاری.

امور نظامی

وزارت دفاع امریکا، یادگیری عمیق را برای آموزش ربات ها در کارهای جدید از طریق مشاهده مورد استفاده قرار داده است.

ارتباط با شناخت انسانی و توسعه مغز


یادگیری عمیق با دسته ای از تئوری های رشد مغز (به ویژه، رشد نئوکورتیکال) که در دهه 1990 توسط دانشمندان عصب شناختی ارائه شده اند، ارتباط نزدیکی دارد. این مدل های رشدی در مدل های محاسباتی تجلی پیدا کردند، و به فرایندهایی از سیستم های یادگیری عمیق تبدیل شدند. این مدل های رشدی،  ویژگی مشترکی را نشان میدهند که دینامیک های مختلف توصیف شده برای یادگیری در مغز (مثل موجی از عامل رشد عصب) تا حدی مشابه شبکه های عصبی مورد استفاده در مدل های یادگیری عمیق هستند و خودسازماندهی را پشتیبانی میکنند. مشابه نئوکورتکس، شبکه های عصبی از سلسله ای از فیلترهای لایه ای استفاده میکنند که در آن ها هر لایه، اطلاعات لایه قبلی (یا محیط عمل) را میگیرد و خروجی خود را (احتمالاً همراه ورودی اصلی) را به لایه های دیگر میدهد. این فرایند، توده ای از مبدل های خودسازمانده تولید میکند که با محیط عمل خود به خوبی تنظیم شده اند.  توصیفی در سال 1995 بیان کرد، “…به نظر میرسد که مغز نوزاد خود را تحت تاثیر امواج عواملِ به اصطلاح تروفیک سازماندهی میکند… نواحی مختلف مغز بطور دانباله وار متصل میشوند و طی آن یک لایه از بافت، پیش از لایه ای دیگر به بلوغ میرسد و این روند ادامه میابد تا کل مغز به بلوغ برسد.” روش های متنوعی برای بررسی معقولیت مدل های یادگیری عمیق از دیدگاه عصب-زیست شناختی مورد استفاده بوده اند. از یک طرف، اَشکال مختلفی از الگوریتم پس-نشر برای برای افزایش واقع گراییِ پردازش آن ارائه شده اند. از طرف دیگر، سایر محققان استدلال کرده اند که اَشکال بدون نظارت یادگیری عمیق، مثل آنهایی که بر مدل های مولد سلسله وار و شبکه های باور عمیق مبتنی هستند، ممکن است به حقیقت زیست شناختی نزدیکتر باشند. از این نظر، مدل های مولد شبکه های عصبی، به شواهد عصب-زیست شناختی درباره پردازش مبتنی بر نمونه گیری در غشاء مغز مرتبط شده اند. گرچه هنوز مقایسه ای سیستماتیک میان سازماندهی مغز انسان و رمزنگاری نورونی در شبکه های عمیق ارائه نشده است، اما چند تشابه گزارش شده است. برای مثال، محاسباتِ انجام شده توسط واحدهای یادگیری عمیق میتواند مشابه محاسبات نورون های واقعی و جمعیت های نورونی باشد. بطور مشابه، نمایش های توسعه یافته توسط مدل های یادگیری عمیق، هم در سطح تک-واحدی و هم در سطوح جمعیتی مشابه اندازه گیری های سیستم بصری پستانداران است.

فعالیت تجاری


بسیاری از سازمان ها یادگیری عمیق را برای کاربردهایی ویژه استفاده میکنند. آزمایشگاه هوش مصنوعی فیسبوک کارهایی از قبیل علامت زنی خودکار عکس های آپلود شده را با نام افراد حاضر در عکس انجام میدهد. فناورهی های DeepMind گوگل، سیتمی را توسعه دادند که توانایی یادگیری بازی های ویدیویی آتاری را تنها با استفاده از پیکسل ها به عنوان ورودی دارد. آنها در سال 2015 سیستم آلفاگو را نشان دادند، که بازی Go را به قدری خوب یاد گرفت که یک بازیباز حرفه ای Go را شکست داد. ترجمه گوگل از یک LSTM برای ترجمه میان بیش از 100 زبان استفاده میکند. در سال 2015، Blipar یک اپلیکیشن واقعیت افزوده موبایلی را معرفی کرد که از یادگیری عمیق برای شناسایی همزمان اشیاء استفاده میکند. از سال 2008، محققین در دانشگاه تگزاز در آستین (UT) یک چارچوب یادگیری ماشین به نام آموزش دستی یک مامور از طریق تقویت ارزشگذارانه یا TAMER توسعه داده اند، که روش هایی جدید برای ربات ها یا برنامه های رایانه ای جهت یادگیری کارها از تعامل با یک معلم انسانی ارائه میکند. نسخه جدید الگوریتم TAMER به نام TAMER عمیق در سال 2018 طی یک همکاری میان آزمایشگاه تحقیقاتی ارتش امریکا (ARL) و محققین UT معرفی شد. TAMER عمیق از یادگیری عمیق برای قادر ساختن ربات به یادگیری کارهای جدید از طریق مشاهده استفاده میکند. یک ربات با استفاده از TAMER عمیق، با دیدن استریم های ویدیویی یا مشاهده انجام یک کار توسط انسان از نزدیک، انجام کار را از آموزگار انسانی یاد گرفت. ربات بعداً این کار را با کمک هدایت یک آموزگار، که بازخوردهایی از قبیل “کارِت خوب بود” یا “کارت بد بود”، تمرین کرد.

انتقاد و نظرات


یادگیری عمیق هم انتقادات و هم نظراتی را جلب کرده کرده است که برخی از آنها خارج از حوزه علوم رایانه بوده است.

تئوری

یکی از ایرادات اصلی، عدم وجود تئوری حول برخی روش ها است. یادگیری در متداول ترین معماری های عمیق، با استفاده از گرادیان کاهشی که به خوبی درک شده، پیاده سازی میشود. با این حال، تئوری سایر الگوریتم ها، مثل دیورژانس متناسب، شفافیت کمتری دارد (برای مثال، آیا همگرا میشود؟ اگر میشود، با چه سرعتی؟ چه چیزی را تقریب میزند؟) روش های یاگیری عمیق معمولاً به عنوان یک جعبه سیاه در نظر گرفته میشوند، که بیشتر تاییدیه های آن بطور تجربی بدست میایند، نه بطور تئوری. سایر محققین اظهار میکنند که یادگیری عمیق را باید به عنوان گامی به سوی تَحَقُق هوش مصنوعی قوی در نظر گرفت، نه به عنوان راه حلی جهان شمول. روش های یادگیری عمیق، به رغم قدرتی که دارند، همچنان فاقد عمده کارکرد لازم جهت تحقق کامل این هدف هستند. روانشناس پژوهشی گری مارکوس خاطر نشان کرد:

“بطور واقع بینانه، یادگیری عمیق تنها بخشی از چالش بزرگتر ساخت ماشین های هوشمند است. چنین تکنیک هایی فاقد روش های نمایش روابط عِلّی هستند (…) هیچ راه مشخصی برای انجام استنباط های منطقی ندارند، و همچنین با یکپارچه سازی دانش انتزاعی، از قبیل اطلاعاتی راجع به اینکه اشیاء چه هستند، برای چه مصرفی هستند و معمولاً چگونه استفاده میشوند، فاصله زیادی دارند. مهمترین سیستم های A.I. مثل واتسون (…) از تکنیک هایی مثل یادگیری عمیق تنها به عنوان یک عنصر میان مجموعه ای بسیار پیچیده از تکنیک ها استفاده میکنند، که از تکنیک آماری استنباط بیزی تا استدلال استنتاجی را دربر می گیرد.”

به عنوان جایگزینی بر این تاکید روی محدودیت های یادگیری عمیق، یک نویسنده گمانه زنی کرده است که میتوان یک بسته بینایی رایانه را طوری آموزش داد که کار پیچیده تشخیص میان نقاشی های “استاد کهنه کار” و آماتور را انجام دهد، و می انگارد که چنین حساسیتی میتواند نمایشگر مقدمات همدلی نابدیهی ماشین باشد. همین نویسنده اظهار میکند که این مطلب با انسان شناسی هم راستا است، که یک نگرانی را درمورد زیبایی شناسی به عنوان عنصری کلیدی از مُدرنیته رفتاری شناسایی میکند. در ارجاعی دیگر به این ایده که حساسیت هنری ممکن است در سطوح نسبتاً پایین سلسله ی شناختی قرار داشته باشد، یک سری نمودارهای منتشر شده از وضعیت های درونی شبکه های عصبی عمیق (20 – 30 لایه) که الزاماً از درون داده های تصادفی سعی در تشخیص تصاویری که با آنها آموزش دیدند را داشتند، یک جذابیت دیدنی را نشان میدهند: اعلامیه اصلی این تحقیق بیش از 1000 کامنت دریافت کرد، و موضوع چیزی بود که برای مدتی پربازدیدترین مقاله در وبسات گاردین بود.

خطاها

برخی معماری های یادگیری عمیق رفتارهای مشکل سازی را نشان میدهند، مثل طبقه بندی قطعیِ تصاویرِ غیرقابل تشخیص به عنوان عضو دسته آشنای تصاویر عادی و نیز طبقه بندی نادست اختلالات جزئی تصاویری که به درستی طبقه بندی شدند. گورتزل انگاشت که این رفتارها به علت محدودیت نمایش های درونی آنهاست و این محدودیت ها در یکپارچه سازی با معماری های AGI چند مولفه ایِ ناهمگون وجود دارند. این مسائل ممکن است با معماری های یادگیری عمیقی که بطور درونی وضعیت هایی همسان با تجزیه های گرامر تصویری از موجودات و اتفاقات مشاهده شده ایجاد میکنند، حل شوند. یادگیری یک گرامر (بصری یا زبانی) از داده های آموزشی معادل است با محدودسازی سیستم به استدلال حس مشترک، که از جنبه ی قواعد تولید گرامری روی مفاهیم عمل میکند، و هدفی اساسی هم برای اکتساب زبان انسان است و هم برای هوش مصنوعی.

تهدید سایبری

با انتقال یادگیری عمیق از آزمایشگاه به جهان بیرون، تحقیقات نشان میدهد که شبکه های عصبی مصنوعی در مقابل هک و فریبکاری آسیب پذیر هستند. با شناسایی الگوهایی که این سیستم ها برای عملکرد خود استفاده میکنند، مهاجم ها میتوانند ورودی های ANNها را به گونه ای تغییر دهند که ANN تطابقی پیدا کند که ناظر انسانی نتواند آن را تشخیص دهد. برای مثال، یک مهاجم میتواند در یک تصویر، تغییراتی نامحسوس ایجاد کند که ANN برای آن تطابقی پیدا کند، علی رغم اینکه تصویر از نظر انسان هیچ شباهتی به هدف جستجو ندارد. این نوع دست کاری را “حمله دشمن” مینامند. در سال 2016 محققین از یک ANN برای جعل تصاویر به صورت آزمون و خطا استفاده کردند، به این صورت که نقاط کانونی تصویر دیگری را شناسایی با کمک آنها تصاویری را تولید کردند که جعل تصویر اصلی بود. تصاویر دست کاری شده از چشم انسان هیچ تفاوتی نداشتند. گروهی دیگر از محققین نشان دادند عکس گرفتن از پرینت تصاویر جعلی، به خوبی یک سیسم طبقه بندی تصویر را گول میزند. یک راه دفاع، جستجوی تصویر وارون است که در آن یک تصویرِ احتمالاً جعلی در سایتی مثل TinEye ثبت میشود که میتواند سایر نمونه های آن را پیدا کند. یک اصلاح این است که جستجو فقط با استفاده از قطعه هایی از تصویر انجام شود، تا تصاویری که آن قطعه ممکن است از آنها گرفته شده باشد شناسایی شوند. گروهی دیگر نشان دادند برخی منظره های روانگردان میتوانند یک سیستم شناسایی چهره را گول بزنند که مردم عادی را با افراد مشهور اشتباه بگیرد که به فرد، امکانِ بالقوه تقلید فرد دیگری را میدهد. در سال 2017 محققین به علائم ایست، برچسب هایی را چسباندند که باعث شد یک ANN آنها را اشتباه طبقه بندی کند. با این حال میتوان ANN را برای شناسایی تلاش های فریبکارانه، بیشتر آموزش داد، چیزی که مهاجمین و مدافعین را وارد یک مسابقه تسلیحاتی بالقوه میکند، مشابه آنچه که هم اکنون صنعت دفاع در مقابل بدافزارها را تعریف میکند. ANNها آموزش دیده اند تا با حمله مکرر به یک دفاع با بدافزاری که توسط یک الگوریتم ژنتیکی بطور پیوسته تغییر کرده تا ضد بدافزار را گول بزند و درعین حال توانایی خود را برای آسیب به هدف حفظ کند، نرم افزارهای ضد بدافزار مبتنی بر ANN را شکست دهند. گروهی دیگر نشان داده اند که برخی صوت های خاص میتوانند باعث شوند سیستم دستور صوتی Google Now آدرس وبی را باز کند که یک بدافزار را دانلود میکند. در “سمی کردن داده ها”، داده های نادرست بطور مداوم به مجموعه آموزشی یک سیستم یادگیری ماشین تزریق میشوند تا مانع تسلط آن شوند.