Классические модели ML

Курс про линейные модели и ансамбли из деревьев решений

OpenMLCourse

02/29/24

Бейзлайн ноут по сореве на Линейных моделях

О курсе

Классические модели машинного обучения - это линейные модели и модели на основе деревьев решений.

Такие модели лучше других справляются с задачами, где разнородные данные, т.н. "табличные данные", т.е. такие, которые часто находятся в базах данных и которые выглядят как таблица: строки - наблюдения, столбцы - признаки.

(В отличие от картинок, текстов, аудио, видео, которые представляют из себя 1) огромные объемы данных, причём данные 2) однородны, каждый пиксель или слово зависят от предыдущего. Для таких данных лучшие модели - это нейронные сети.)

Программа курса и даты

Тема 1. Линейные модели

Курс о линейной зависимости: поговорим о линейной и логистической регрессиях, метриках, валидации, генерации признаков и применим знания в конкурсе.

1. Линейная регрессия. 29.02.2024

Линейная регрессия и чем подход машинного обучения отличается от подхода, который применяется в эконометрике

2. Логистическая регрессия. 04.03.2024

Логистическая регрессия, функция потерь - кросс-энтропия, градиентный спуск и решение численным методом. Предсказание вероятности, пороги принятия решений, матрица ошибок, точность и полнота, F-мера и Gini

3. Выбор модели. 07.03.2024

Стратификация, скользящий контроль, смещение и разброс, валидационная кривая, сколько нужно данных, признаки из текста, времени, выбор признаков

Тема 2. Деревья и их ансамбли

4. Деревья + Построение дерева 11.03.2024
5. Виды деревьев + Классификация и лес 18.03.2024
6. Градиентный бустинг 25.03.2024
7. Интерпретация моделей 28.03.2024

(new 🔥) 8. Градиентный бустинг, CatBoost и прогноз оттока 01.04.2024

(Есть дополнительный материал в SpatialChat конкурса!)

Курс будет полезен начинающим специалистам, и тем, кто хочет освежить знания по линейным моделям и деревьям, а также набраться опыта по их применению.

Общение и вопросы по курсу - в чате https://mm.ods.ai/ods/channels/classic_ml_course

Практика

Конкурс, который мы будем решать используя всю мощь полученных знаний - это текущий конкурс Data Fusion, состоящий из 2-х заданий. Можно принимать участие в любом задании, ваш наивысший относительный рейтинг в любом задании будет засчитан как оценка по этому курсу (см. правила в Новостях).

Есть домашнее задание!

Иван Комаров, ЦФТ, ods.ai, НГУ
Артем Шевляков, Школа компьютерных наук ТюмГУ, https://www.utmn.ru/imkn/shkn/index.php
Евгений Петров, Яндекс, catboost