Ended 3 weeks ago

Классические модели ML (autumn 2024)

Курс про линейные модели и ансамбли из деревьев решений

OpenMLCourse

О курсе

Классические модели машинного обучения - это линейные модели и модели на основе деревьев решений.

Такие модели лучше других справляются с задачами, где разнородные данные, т.н. "табличные данные", т.е. такие, которые часто находятся в базах данных и которые выглядят как таблица: строки - наблюдения, столбцы - признаки.

(В отличие от картинок, текстов, аудио, видео, которые представляют из себя 1) огромные объемы данных, причём данные 2) однородны, каждый пиксель или слово зависят от предыдущего. Для таких данных лучшие модели - это нейронные сети.)

Программа курса и даты

Тема 1. Линейные модели

Курс о линейной зависимости: поговорим о линейной и логистической регрессиях, метриках, валидации, генерации признаков и применим знания в конкурсе.

1. Линейная регрессия. 12.09.2024 

Линейная регрессия и чем подход машинного обучения отличается от подхода, который применяется в эконометрике

ДЗ-1 открывается с лекцией, дедлайн 26.09.2024

2. Логистическая регрессия. 19.09.2024

Логистическая регрессия, функция потерь - кросс-энтропия, градиентный спуск и решение численным методом. Предсказание вероятности, пороги принятия решений, матрица ошибок, точность и полнота, F-мера и Gini

ДЗ-2 открывается с лекцией, дедлайн 03.10.2024

3. Выбор модели. 26.09.2024

Стратификация, скользящий контроль, смещение и разброс, валидационная кривая, сколько нужно данных, признаки из текста, времени, выбор признаков

ДЗ-3 открывается с лекцией, дедлайн 10.10.2024

Тема 2. Деревья и их ансамбли

4. Деревья + Построение дерева 03.10.2024

ДЗ-4 открывается с лекцией, дедлайн 17.10.2024

5. Виды деревьев, классификация и лес 10.10.2024

ДЗ-5 открывается с лекцией, дедлайн 24.10.2024

6. Градиентный бустинг 17.10.2024

ДЗ-6 открывается с лекцией, дедлайн 31.10.2024

7. Интерпретация моделей 24.10.2024

ДЗ-7 открывается с лекцией, дедлайн 07.11.2024

(bonus 🔥) 8. Градиентный бустинг, CatBoost и прогноз оттока 31.10.2024

(bonus 🔥) Тема 3. Эксперименты, визуализация, поиск аномалий

9. АБ тесты

10. Кластеризация и визуализация

11. Поиск аномалий

Курс будет полезен начинающим специалистам, и тем, кто хочет освежить знания по линейным моделям и деревьям.

Общение и вопросы по курсу - в чате https://mm.ods.ai/ods/channels/classic_ml_course

Оценка

Каждое ДЗ оценивается по количеству решенных задач (10 баллов за каждую правильно решенную):

ДЗ-1 (макс 100)

ДЗ-2 (макс 80)

ДЗ-3 (макс 50)

ДЗ-4 (макс 50)

ДЗ-5 (макс 30)

ДЗ-6 (tbd)

ДЗ-7 (tbd)

После освоения основного материала с большой вероятностью будет запущен конкурс, где можно заработать столько же баллов сколько на ДЗ.

Авторы курса:

Иван Комаров, ЦФТ, ods.ai, НГУ
Артем Шевляков, Школа компьютерных наук ТюмГУ, https://www.utmn.ru/imkn/shkn/index.php
Евгений Петров, Яндекс, catboost
Георгий Туркия, НГУ

Track program

Cookies help us deliver our services. By using our services, you agree to our use of cookies.