ссылка на тестирование: https://goo.gl/xKLuwg
======Защита проектов======
На защиту дается 5-7 минут+время на вопросы. Структура презентации:
- Постановка задачи, обзор использованных данных
- Выбранная модель, обоснование метода, использованные инструменты
- Результаты (что получилось, а что не до конца, какие метрики качества Вы использовали)
Код и презентацию прислать мне на почту: zueva.nn@phystech.edu Презентации с прошлых защит могут быть высланы на почту по просьбе.
Защита презентаций состоится во вторник 27.11.18
======Формат======
- Пять занятий: 4 дня под лекции и семинары и 1 день на защиту проектов
- Еженедельные домашние задания по практическому семинарскому материалу
- Мини-контрольная на 5 минут после каждой лекции по определениям и идеям только что пройденной темы. Оценка: зачет/незачет
- Если все мини-контрольные сданы на зачет и по всем домашкам набрано не меньше 0.8 от максимального балла, то слушатель может получить отлично (10) без сдачи проекта
- Если чувствуете в себе силы, то можно делать домашки вперед
======Первое занятие======
Лекция:
- Историческая справка
- Основные понятия и терминология
- Примеры задач
- Метрические классификаторы
Семинар:
- Pandas
- NumPy
- Matplotlib
- kNN
======Второе занятие======
Лекция:
- Зоопарк моделей машинного обучения. Области применения
- Линейные методы
- Метрики качества
Семинар: Linear models (Sklearn) + metrics practise
Лекция:
- Логические классификаторы
- Решающие деревья
- Беггинг и бутстреп
- Ансамбли/композиции
Семинар: XGBoost
======Третье занятие======
Лекция:
- Метрики качества
- Препроцессинг данных
- Выбор темы для финального проекта
https://drive.google.com/drive/folders/18S595O0FAxosG5ME0TQOqziciw8vNeTc?usp=sharing
Семинар: Полный цикл анализа данных
======Четвертое занятие======
Практика на пройденные темы
======Пятое занятие======
Защита проектов
======Полезные материалы======
- Подробнее про параметрические и непараметрические методы:
https://medium.com/@zaidalissa/what-are-parametric-vs-nonparametric-models-8bfa20726f4d
- Сайт с огромным количеством материалов, который можно использовать как справочник:
- Туториалы по основным библиотекам Python (к сожалению, без scikit-learn):
http://www.inp.nsk.su/~grozin/python/
- Документация по scikit-learn:
http://scikit-learn.org/stable/
-
Решение задания с семинара (knn): https://drive.google.com/drive/folders/1aclnjcgsI79adtqJuENxJ89JvK-lSNIy
-
https://nbviewer.jupyter.org/urls/dl.dropbox.com/s/td55s954nm3lvus/demonstration_decision_tree.ipynb
-
https://nbviewer.jupyter.org/urls/dl.dropbox.com/s/syjbrduvvxmky3y/random_forest_tutorial.ipynb
Прочее https://www.kaggle.com/zubairahmed/79-63-acc-with-xgboost-on-pima-indian-diabetes https://www.kaggle.com/uciml/pima-indians-diabetes-database http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html
https://github.com/catboost/catboost/blob/master/catboost/tutorials/catboost_python_tutorial.ipynb