اصول و تکنیکها در علم داده
مدرس: مهدی دولتی | گواهی: رسمی دوزبانه |
ترم: زمستان ۱۴۰۳ | پیشنیاز: ریاضیات هوش مصنوعی و علم داده |
زمان ارائه: یکشنبه و سهشنبه ۱۶:۳۰ تا ۱۸:۰۰ | محل برگزاری: کلاس مجازی |
هدف کلی
هدف این درس، توانمندسازی دانشجویان برای ارائه راهحلهای داده محور برای مسائل مختلف است. برای این منظور، دانشجویان با مفاهیم و پیشنیازهای ریاضی و آماری ارائه چنین رویکردهایی آشنا میشوند، با اصول و گامهای ارائه راهکارهای دادهمحور همچون تحلیل و مصورسازی دادهها، مدلسازی آماری و احتمالاتی، استنتاج آماری و تصمیمگیری در شرایط نامعین آشنا میشوند و با بهکارگیری این روشها به صورت عملی در مسائل واقعی، با چالشهای بهکارگیری این روشها در دنیای واقعی آشنا میشوند.
سرفصلها
- آنالیز داده
- آشنایی با چرخه عمر علوم داده
- تولید داده (پرسشنامه، سرشماری، آزمایش کنترل شده)
- جمعآوری و تجمیع دادهها (یکسانسازی دادهها، نمایش جدولی دادهها، فیلتر کردن و تجمیع دادهها)
- تمیز کردن داده (مدیریت دادههای پرت، مقادیر نامعلوم دادهها، کدگذاری و نمایش در فضای برداری)
- تحلیل اکتشافی داده
- مصورسازی دادهها
- تشخیص الگو و فرضیه پردازی به کمک مصورسازی دادهها
- شناخت آفتهای تحلیلهای داده (بایاس در دادهها، ناکافی بودن ویژگیها، تشخیص همزمانی از علّیت)
- تست فرضیه و دستکاری value-p۱
- مدلسازی آماری داده
- شنایی با گامهای مدلسازی (تابع هزینه، یادگیری پارامترهای مدل، پیشبینی، نظریه تصمیم)
- مفهوم قدرت تعمیم مدل و سنجش آن به کمک تابع هزینه
- جداسازی دادههای آموزش و اعتبارسنجی و تست
- بیشبرازش، اعتبارسنجی ضربدری، منظم سازی
- روشهای بهینهسازی (کاهش گرادیان، نیوتن، روشهای مبتنی بر گشتاور)
- مدلسازی احتمالاتی و بیزی
- استنتاج آماری، یادگیری مدل به کمک نظریه تخمین، پیشبینی به کمک مدلهای آموزش داده شده
- نظریه تصمیم
- مصالحه بین سوگیری و واریانس
- نفرین ابعاد
- مدلسازی آماری در عمل
- مصورسازی دادههای با ابعاد بالا با استفاده از روش tSNE
- استخراج و انتخاب ویژگی
- کوانتیزاسیون ویژگیها به کمک درخت تصمیم
- دستهبندی به کمک روشهای خطی
- دستهبندی با استفاده از درخت تصمیم
- ارزیابی دستهبندها
- مهندسی یادگیری ماشین در محیط عملیاتی
- مقدمهای بر mlops: یادگیری انتهابهانتها۱، یادگیری مداوم، تغییر داده، تغییر مفهوم، فروشگاه ویژگی، خطلوله
- چرخه عمر داده در محیط عملیاتی
- چرخه عمر و خط لولههای یادگیری در محیطهای عملیاتی
- استقرار سامانههای یادگیری در محیط عملیاتی
ارزیابی
- آزمون: آزمونهای میاننیمسال و پایاننیمسال (۵۰ درصد نمره)
- تمرین و پروژه: سه تمرین تئوری و یک پروژه عملی که در طول نیمسال تحویل داده میشوند (۵۰ درصد نمره).
منابع
- Principles and Techniques of Data Science, UC Berkeley, Fall 2022.
- J. Grus, Data Science from Scratch, O’Reilly, 2019.
- G. James, D. Witten, T. Hastie, R. Tibshirani, An Introduction to Statistical Learning, Springer, 2017.
- C. O'Neil, R. Schutt, Doing Data Science, O’Reilly, 2013.
- W. McKinney, Python for Data Analysis, O’Reilly, 2012.