برنامه‌سازی برای تحلیل داده

مدرس: امیرمهدی صادق‌زاده شماره درس: ۳۰۱۰
ترم: تابستان ۱۴۰۳ پیش‌نیاز: برنامه‌سازی پایتون
زمان ارائه: شنبه ۱۷:۰۰ تا ۲۰:۰۰ محل برگزاری: کلاس مجازی

هدف کلی

هدف از این درس کسب تسلط بر زبان برنامه‌سازی پایتون و استفاده از آن زبان برای ذخیره، تحلیل و مصورسازی داده است.

سرفصل‌ها

  1. مرور برنامه‌سازی به زبان پایتون (۲ جلسه)
    • کار با پایتون در محیط‌های تعاملی IPython و Jupyter
    • برنامه‌سازی پیمانه‌ای و استفاده از کتابخانه‌ها
    • تولید اعداد تصادفی و شبیه‌سازی مونت‌کارلو
  2. ذخیره‌سازی و کار با داده (۵ جلسه)
    • ساختارهای ذخیره‌سازی داده
    • سازماندهی داده با استفاده از dataframes
    • پایگاه‌های داده رابطه‌ای و غیررابطه‌ای و انبار داده
    • دستکاری (manipulation) داده با Pandas
  3. آماده‌سازی داده (۲ جلسه)
    • قالب‌دهی (formatting)، نرمال‌سازی و سطل‌بندی (binning) داده
    • پر کردن داده‌های گم (missing)
  4. تحلیل داده (۵ جلسه)
    • درک توزیع داده
    • ایجاد خط‌لوله (pipeline) داده
    • اعمال تکنیک‌های تحلیل روی مجموعه داده‌های واقعی با کتابخانه‌‌های Numpy و Scipy
  5. مصورسازی داده و ترسیم نمودار (۵ جلسه)
    • تحلیل داده اکتشافی (exploratory)
    • ترسیم نمودار در پایتون با کتابخانه‌های Matplotlib و Seaborn و plotly
    • انواع تکنیک‌های مصورسازی داده
    • نکات مهم مرتبط با مصورسازی داده

ارزیابی

  • تمرین‌ها: ۲۰ درصد
  • آزمونک‌ها: ۲۰ درصد
  • آزمون ‌نهایی: ۶۰ درصد

منابع

  1. Wes McKinney. Python for Data Analysis: Data Wrangling with pandas. NumPy, and Jupyter, 3rd Edition, 2022.