Skip to content
/ DAMML Public

Data Analysis methods & Machine Learning

Notifications You must be signed in to change notification settings

Alexey8/DAMML

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

54 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Sberbank_ML

ссылка на тестирование: https://goo.gl/xKLuwg

======Защита проектов======

На защиту дается 5-7 минут+время на вопросы. Структура презентации:

  1. Постановка задачи, обзор использованных данных
  2. Выбранная модель, обоснование метода, использованные инструменты
  3. Результаты (что получилось, а что не до конца, какие метрики качества Вы использовали)

Код и презентацию прислать мне на почту: zueva.nn@phystech.edu Презентации с прошлых защит могут быть высланы на почту по просьбе.

Защита презентаций состоится во вторник 27.11.18

======Формат======

  1. Пять занятий: 4 дня под лекции и семинары и 1 день на защиту проектов
  2. Еженедельные домашние задания по практическому семинарскому материалу
  3. Мини-контрольная на 5 минут после каждой лекции по определениям и идеям только что пройденной темы. Оценка: зачет/незачет
  4. Если все мини-контрольные сданы на зачет и по всем домашкам набрано не меньше 0.8 от максимального балла, то слушатель может получить отлично (10) без сдачи проекта
  5. Если чувствуете в себе силы, то можно делать домашки вперед

======Первое занятие======

Лекция:

  1. Историческая справка
  2. Основные понятия и терминология
  3. Примеры задач
  4. Метрические классификаторы

Семинар:

  1. Pandas
  2. NumPy
  3. Matplotlib
  4. kNN

======Второе занятие======

Лекция:

  1. Зоопарк моделей машинного обучения. Области применения
  2. Линейные методы
  3. Метрики качества

Семинар: Linear models (Sklearn) + metrics practise

Лекция:

  1. Логические классификаторы
  2. Решающие деревья
  3. Беггинг и бутстреп
  4. Ансамбли/композиции

Семинар: XGBoost

======Третье занятие======

Лекция:

  1. Метрики качества
  2. Препроцессинг данных
  3. Выбор темы для финального проекта

https://drive.google.com/drive/folders/18S595O0FAxosG5ME0TQOqziciw8vNeTc?usp=sharing

Семинар: Полный цикл анализа данных

======Четвертое занятие======

Практика на пройденные темы

======Пятое занятие======

Защита проектов

======Полезные материалы======

  1. Подробнее про параметрические и непараметрические методы:

https://medium.com/@zaidalissa/what-are-parametric-vs-nonparametric-models-8bfa20726f4d

  1. Сайт с огромным количеством материалов, который можно использовать как справочник:

http://www.machinelearning.ru

  1. Туториалы по основным библиотекам Python (к сожалению, без scikit-learn):

http://www.inp.nsk.su/~grozin/python/

  1. Документация по scikit-learn:

http://scikit-learn.org/stable/

  1. https://habr.com/company/ods/blog/322626/

  2. Решение задания с семинара (knn): https://drive.google.com/drive/folders/1aclnjcgsI79adtqJuENxJ89JvK-lSNIy

  3. https://nbviewer.jupyter.org/urls/dl.dropbox.com/s/td55s954nm3lvus/demonstration_decision_tree.ipynb

  4. https://nbviewer.jupyter.org/urls/dl.dropbox.com/s/syjbrduvvxmky3y/random_forest_tutorial.ipynb

Прочее https://www.kaggle.com/zubairahmed/79-63-acc-with-xgboost-on-pima-indian-diabetes https://www.kaggle.com/uciml/pima-indians-diabetes-database http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html

https://github.com/catboost/catboost/blob/master/catboost/tutorials/catboost_python_tutorial.ipynb

About

Data Analysis methods & Machine Learning

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published