Ends in 1 week

March 27

May 27

Рекомендации по составу и характеристикам собственного ML проекта используемого по ходу курса:

  • Чтение и слияние исходных данных из различных файлов/форматов
  • Умеренный размер данных для удобства хранения промежуточных артефактов и их версионирования
  • EDA (графики по имеющимся значениям;  проверка распределения данных/стационарность, расчет стандартных статистических характеристик - среднее, медиану и т.д.);
  • Предобработка данных (исправление некорректных значений и выбросов,  фильтрация, замена пропусков и т.д.);
  • Расширение датасета путем получения данных из внешних источников через API, парсинг страниц и т.п.;
  • Инжиниринг данных;
  • Использование нескольких ML алгоритмов для построения моделей (для последующего сравнительного анализа)
  • Несколько метрик качества.

Соблюдение данных рекомендаций позволит полноценно использовать все инструменты и приемы, рассматриваемые в рамках курса.