Требования по составу и характеристикам проекта используемого по ходу курса:

  • Чтение и слияние исходных данных из различных файлов/форматов
  • Умеренный размер данных для удобства хранения промежуточных артефактов и их версионирования 
  • EDA (графики по имеющимся значениям;  проверка распределения данных/стационарность, расчет стандартных статистических характеристик - среднее, медиану и т.д.);
  • Предобработка данных (исправление некорректных значений и выбросов,  фильтрация, замена пропусков и т.д.);
  • Расширение датасета путем получения данных из внешних источников через API, парсинг страниц и т.п.;
  • Инжиниринг данных;
  • Использование/тестирование нескольких возможных решений/подходов для последующего сравнительного анализа
  • Обоснованный выбор метрик качества

Соблюдение данных рекомендаций позволит полноценно использовать все инструменты и приемы, рассматриваемые в рамках курса.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.