یادگیری ژرف
مدرس: حمید بیگی | گواهی: رسمی دوزبانه |
ترم: زمستان ۱۴۰۳ | پیشنیاز: ریاضیات هوش مصنوعی و علم داده |
زمان ارائه: دوشنبه ۱۷:۰۰ تا ۲۰:۰۰ | محل برگزاری: کلاس مجازی |
هدف کلی
این درس به حوزهای از یادگیری ماشین تحت عنوان یادگیری ژرف که در سالهای اخیر بسیار موردتوجه قرار گرفته و به عملکرد چشمگیری در بسیاری از کاربردها دستیافته است خواهد پرداخت. در طول این درس ابتدا مفاهیم اولیه، نظیر شبکههای عصبی چندلایه، قدرت مدلسازی این شبکهها و نحوهی آموزش آنها بحث میشود. سپس آشنایی با معماریهای اصلی نظیر شبکههای CNN و RNN صورت خواهد گرفت. همچنین پیشرفتهایی که در طراحی، بهینهسازی، بهبود تعمیمپذیری و نحوهی آموزش شبکهها در حوزه یادگیری ژرف صورت گرفته است معرفی میشود. مدلهای مولد نیز به عنوان یکی از شاخههای مهم مورد بررسی قرار خواهند گرفت. بهعلاوه به تعدادی از شبکههای ژرف معروف که طی سالهای اخیر معرفی شدهاند، اشاره خواهد شد. در طول درس به کاربردهای مهم شبکههای معرفی شده به خصوص در زمینههای بینایی ماشین و پردازش زبان طبیعی اشاره خواهد شد.
سرفصلها
- مقدمه و معرفی شبکههای عصبی مصنوعی
- پرسپترون چند لایه (Multi-layer Perceptron)
- MLP به عنوان تقریبزننده عمومی (Universal approximator)
- الگوریتم انتشار رو به عقب خطا (Error back propagation)
- بهینهسازی در شبکههای ژرف
- مروری بر بهینهسازی محدب
- معرفی انواع روشهای SGD، Momentum، RMS Prop، Adams و …
- تکنیکهایی در آموزش، طراحی و تعمیمپذیری شبکههای ژرف
- معرفی تکنیکهای بهبود تعمیمپذیری نظیر regularization، dropout، data augmentation
- هنجارسازی بستهای (Batch Normalization)
- انتخاب توابع فعالیت (activation function)، مقداردهی اولیه وزنها، هنجارسازی ورودی و …
- شبکههای عصبی کانولوشنی (Convolutional Neural Networks)
- لایههای convolution و pooling
- معماریهای معروف شبکههای CNN
- کاربردهای مختلف شبکههای CNN
- شبکههای عصبی بازگردنده (Recurrent Neural Networks)
- مدلسازی دنبالهها
- حافظههای بلند کوتاه مدت (Long Short Term Memories)
- شبکههای توجه (Attention Networks)
- مدلسازی زبانی (Language Modeling) با استفاده از شبکههای RNN
- کاربردهای دیگر شبکههای RNN در زمینههای مختلف نظیر پردازش زبان طبیعی (Natural Language Processing)
- معماری تبدیل کننده (Transformer)
- شبکههای جمع-ضرب (Product-Sum)
- مدلهای مولد (Generative Models)
- مدلهای Autoregressive
- خودکدگذار وردشی (Variational)
- شبکههای مولد حریفانه (Generative Adversarial Networks)
- مدلهای مولد مبتنی بر جریان (Flow based)
- یادگیری تقویتی ژرف (Deep Reinforcement Learning)
- یادگیری تقویتی ژرف با استفاده از توابع Q (Q function)
- رویکرد گرادیان سیاست (Policy Gradient)
- رویکرد بازیگر-نقاد (Actor Critic)
- نمونههای خصمانه (Adversarial) و مقاومت شبکههای ژرف به نمونههای خصمانه
- مباحث پیشرفته
- شبکههای دوگان و یادگیری دوگان (Dual Learning)
- شبکههای کانولوشن گرافی
- یادگیری خودنظارتی (Self-supervised)
ارزیابی
- تمرین: ۳۰٪
- میانترم: ۲۰٪
- پایانترم: ۳۰٪
- آزمونهای کوتاه: ۱۰٪
- پروژه یا کار تحقیقاتی: ۱۰٪
منابع
- Ian Goodfellow, Yoshua Bengio and Aaron Courville, Deep Learning, Book in preparation for MIT Press, 2016.
- Michael Nielsen, Neural networks and deep learning, Preprint, 2016.