Требования по составу и характеристикам проекта используемого по ходу курса:

  • Чтение и слияние исходных данных из различных файлов/форматов
  • Умеренный размер данных для удобства хранения промежуточных артефактов и их версионирования 
  • EDA (графики по имеющимся значениям;  проверка распределения данных/стационарность, расчет стандартных статистических характеристик - среднее, медиану и т.д.);
  • Предобработка данных (исправление некорректных значений и выбросов,  фильтрация, замена пропусков и т.д.);
  • Расширение датасета путем получения данных из внешних источников через API, парсинг страниц и т.п.;
  • Инжиниринг данных;
  • Использование/тестирование нескольких возможных решений/подходов для последующего сравнительного анализа
  • Обоснованный выбор метрик качества

Соблюдение данных рекомендаций позволит полноценно использовать все инструменты и приемы, рассматриваемые в рамках курса.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy