Ended 3 years ago

Рекомендации по составу и характеристикам собственного ML проекта используемого по ходу курса:

  • Чтение и слияние исходных данных из различных файлов/форматов
  • Умеренный размер данных для удобства хранения промежуточных артефактов и их версионирования
  • EDA (графики по имеющимся значениям;  проверка распределения данных/стационарность, расчет стандартных статистических характеристик - среднее, медиану и т.д.);
  • Предобработка данных (исправление некорректных значений и выбросов,  фильтрация, замена пропусков и т.д.);
  • Расширение датасета путем получения данных из внешних источников через API, парсинг страниц и т.п.;
  • Инжиниринг данных;
  • Использование нескольких ML алгоритмов для построения моделей (для последующего сравнительного анализа)
  • Несколько метрик качества.

Соблюдение данных рекомендаций позволит полноценно использовать все инструменты и приемы, рассматриваемые в рамках курса.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy