Рекомендации по составу и характеристикам собственного ML проекта используемого по ходу курса:
- Чтение и слияние исходных данных из различных файлов/форматов
- Умеренный размер данных для удобства хранения промежуточных артефактов и их версионирования
- EDA (графики по имеющимся значениям; проверка распределения данных/стационарность, расчет стандартных статистических характеристик - среднее, медиану и т.д.);
- Предобработка данных (исправление некорректных значений и выбросов, фильтрация, замена пропусков и т.д.);
- Расширение датасета путем получения данных из внешних источников через API, парсинг страниц и т.п.;
- Инжиниринг данных;
- Использование нескольких ML алгоритмов для построения моделей (для последующего сравнительного анализа)
- Несколько метрик качества.
Соблюдение данных рекомендаций позволит полноценно использовать все инструменты и приемы, рассматриваемые в рамках курса.