Skip to content

a-milenkin/Competitive_Data_Science

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Competitive Data Science Course

Материалы по курсу Введение в соревновательный анализ данных.

Канал в телеграм t.me/data_science_winners

Code style: black

В этом репозитории разбор полезных фрагментов кода для побед в соревнованиях по машинному обучению. Ставь звуздочку этому реопзиторию!

1. 🚀 Введение

Введение в соревновательный Data Science

  • 1.1 🎬 Что даст тебе этот курс?
  • 1.2 ✈️ Суть соревновательного анализа данных
  • 1.3 🤼‍♀️ А с кем и где будем соревноваться в курсе?

2. 🎵 Классические элементы анализа данных

А ты думал сразу стакать будем?!

  • 2.1 🎓🐍 Пишем и организуем код
  • 2.2 🎓🐼 Pandas. Забудь про циклы! 🐍
  • 2.3 💾📈 Данные и визуализация. Куда двигаться?!
  • 2.4 🦾🤖 Валидация и модели

3. 🤿 Углубляемся в Feature Engineering

Перед тем как накидывать модели, выжмем максимум из данных

  • 3.1 💪🐼 Pandas мощнее, чем ты думаешь!
  • 3.2 🤜🦈Генерируем новые признаки и увеличиваем точность
  • 3.3 ☂️ Фильтрация признаков
  • 3.4 👀🚗 Визуализация. Как понять, где модель косячит?
  • 3.5 🦆🔥 Секретный гость (Интервью с KGM)

4. 👨‍🔧Тюнинг бустингов как искусство

Знать как устроены модели мало, надо уметь их оптимизировать

  • 4.1 😺🚀 CatBoost + Feature Engineering
  • 4.2 🦄🎳 LightGBM + Feature Engineering
  • 4.3 👽🔱 XGBoost + Feature Engineering
  • 4.4 🌳🌲🌴 Бустинги. Практика
  • 4.5 🦆🔥 Секретный гость (Советы от KGM)

5. 🍋💦 Выжимаем максимум из ML моделей

Жмем Shift + Tab и подбираем гипер-параметры моделей автоматически

  • 5.1 🎣 Автоматическая генерация и фильтрация признаков
  • 5.2 ⚙️ Не время блендить, давайте выжмем еще!
  • 5.3 🦆🔥 Секретный гость (Секреты от KGM)

6. 🧞‍♂️ Блендинг, cтекинг и другие техники дойти до 95%

И один ты в поле воин, если твой ансамбль из сотни скроен.

  • 6.1 ⚔️ Блендинг. Смешай и точность вырастет!
  • 6.2 💎 Стекинг. Точность снова выросла, да ну на?!
  • 6.3 🦏 Автоматический блендинг и стекинг. Sklearn-Pipelines
  • 6.4 🍸🍧 Взболтать, но не смешивать. Практика

7. 🙋‍♀️ Вспомогательные техники

Помоги своему пайплайну дышать свободнее

  • 7.1 ⏱ Оптимизация памяти и ускорение вычислений
  • 7.2 🧹 Парсинг внешних данных

8. 🏆🥳 Kaggle. Ящик инструментов для победы

  • 8.1 Полное baseline решение. Бей его!
  • 8.2 🚢 Работа с платформой Kaggle и Kaggle API
  • 8.3 🌈 Google Colab, Paper Space, Yandex Cloud и другие

9. 🎁 Бонусные главы

Этих главы не обязательны для получения сертификата за курс, но эти главы выделят тебя на фоне остальных.

  • 9.1 🧠 А нейронки будут ?!
  • 9.2 🚚 Продвинутый Feature Engineering
  • 9.3 🏋️‍♂️🏌️‍♂️ Weigths & Biases
  • 9.4 👩‍🎤👨‍🎤💡Работа в команде

10. 🤐🎃 Запрещенные техники или что там по привату?!

Предупрежден - значит вооружен!

  • 10.1 🎲 Работа с метрикой. Пре-процессинг и пост-процессинг
  • 10.2 🎭 Псевдолейблинг
  • 10.3 🏹 Пробиваем лидерборд

11. 🏁 Финиш курса

  • 11.1 Ну вот и все. Что дальше?

Ссылка на курс: https://stepik.org/a/108888

Авторы

  • Миленькин Александр (@Aleron)
  • Александров Иван (@ivanich_spb)
  • Вольнов Сергей (@sergak0)

About

Материалы по курсу анализу данных

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published