Требования по составу и характеристикам проекта используемого по ходу курса:
- Чтение и слияние исходных данных из различных файлов/форматов
- Умеренный размер данных для удобства хранения промежуточных артефактов и их версионирования
- EDA (графики по имеющимся значениям; проверка распределения данных/стационарность, расчет стандартных статистических характеристик - среднее, медиану и т.д.);
- Предобработка данных (исправление некорректных значений и выбросов, фильтрация, замена пропусков и т.д.);
- Расширение датасета путем получения данных из внешних источников через API, парсинг страниц и т.п.;
- Инжиниринг данных;
- Использование/тестирование нескольких возможных решений/подходов для последующего сравнительного анализа
- Обоснованный выбор метрик качества
Соблюдение данных рекомендаций позволит полноценно использовать все инструменты и приемы, рассматриваемые в рамках курса.