اصول و تکنیک‌ها در علم داده

مدرس: محمدامین فضلی گواهی: رسمی دوزبانه
ترم: تابستان ۱۴۰۳ پیش‌نیاز: ریاضیات هوش مصنوعی و علم داده
زمان ارائه: پنج‌شنبه ۹:۰۰ تا ۱۲:۰۰ محل برگزاری: کلاس مجازی

هدف کلی

هدف این درس، توانمندسازی دانشجویان برای ارائه راه‌حل‌های داده محور برای مسائل مختلف است. برای این منظور، دانشجویان با مفاهیم و پیش‌نیازهای ریاضی و آماری ارائه چنین رویکردهایی آشنا می‌شوند، با اصول و گام‌های ارائه راهکارهای داده‌محور هم‌چون تحلیل و مصورسازی داده‌ها، مدل‌سازی آماری و احتمالاتی، استنتاج آماری و تصمیم‌گیری در شرایط نامعین آشنا می‌شوند و با به‌کارگیری این روش‌ها به صورت عملی در مسائل واقعی، با چالش‌های به‌کارگیری این روش‌ها در دنیای واقعی آشنا می‌شوند.

سرفصل‌ها

  1. آنالیز داده
    • آشنایی با چرخه عمر علوم داده
    • تولید داده (پرسشنامه، سرشماری، آزمایش کنترل شده)
    • جمع‌آوری و تجمیع داده‌ها (یکسان‌سازی داده‌ها، نمایش جدولی داده‌ها، فیلتر کردن و تجمیع داده‌ها)
    • تمیز کردن داده (مدیریت داده‌های پرت، مقادیر نامعلوم داده‌ها، کدگذاری و نمایش در فضای برداری)
    • تحلیل اکتشافی داده
    • مصورسازی داده‌ها
    • تشخیص الگو و فرضیه پردازی به کمک مصورسازی داده‌ها
    • شناخت آفت‌های تحلیل‌های داده (بایاس در داده‌ها، ناکافی بودن ویژگی‌ها، تشخیص همزمانی از علّیت)
    • تست فرضیه و دستکاری value-p۱
  2. مدل‌سازی آماری داده‌
    • شنایی با گام‌های مدل‌سازی (تابع هزینه، یادگیری پارامترهای مدل، پیش‌بینی، نظریه تصمیم)
    • مفهوم قدرت تعمیم مدل و سنجش آن به کمک تابع هزینه
    • جداسازی داده‌های آموزش و اعتبارسنجی و تست
    • بیش‌برازش، اعتبارسنجی ضربدری، منظم سازی
    • روش‌های بهینه‌سازی (کاهش گرادیان، نیوتن، روش‌های مبتنی بر گشتاور)
    • مدل‌سازی احتمالاتی و بیزی
    • استنتاج آماری، یادگیری مدل به کمک نظریه تخمین، پیش‌بینی به کمک مدل‌های آموزش داده شده
    • نظریه تصمیم
    • مصالحه بین سوگیری و واریانس
    • نفرین ابعاد
  3. مدل‌سازی آماری در عمل
    • مصورسازی داده‌های با ابعاد بالا با استفاده از روش tSNE
    • استخراج و انتخاب ویژگی
    • کوانتیزاسیون ویژگی‌ها به کمک درخت تصمیم
    • دسته‌بندی به کمک روش‌های خطی
    • دسته‌بندی با استفاده از درخت تصمیم
    • ارزیابی دسته‌بندها
  4. مهندسی یادگیری ماشین در محیط عملیاتی
    • مقدمه‌ای بر mlops: یادگیری انتهابه‌انتها۱، یادگیری مداوم، تغییر داده، تغییر مفهوم، فروشگاه ویژگی، خط‌لوله
    • چرخه عمر داده در محیط عملیاتی
    • چرخه عمر و خط لوله‌های یادگیری در محیط‌های عملیاتی
    • استقرار سامانه‌های یادگیری در محیط عملیاتی

ارزیابی

  • آزمون: آزمون‌های میان‌نیم‌سال و پایان‌نیم‌سال (۵۰ درصد نمره)
  • تمرین و پروژه: سه تمرین تئوری و یک پروژه عملی که در طول نیم‌سال تحویل داده می‌شوند (۵۰ درصد نمره).

منابع

  1. Principles and Techniques of Data Science, UC Berkeley, Fall 2022.
  2. J. Grus, Data Science from Scratch, O’Reilly, 2019.
  3. G. James, D. Witten, T. Hastie, R. Tibshirani, An Introduction to Statistical Learning, Springer, 2017.
  4. C. O'Neil, R. Schutt, Doing Data Science, O’Reilly, 2013.
  5. W. McKinney, Python for Data Analysis, O’Reilly, 2012.