Ended 13 months ago
62 participants
54 submissions

Задание по блоку DVC (курс MLOps и production в DS исследованиях 3.0)

Цель домашнего задания познакомится с базовыми функционалом dvc.

Предлагается использовать данные из датасета Amazon reviews, но так же можно использовать свои данные для выполнения задания. Задание состоит из следующих шагов:

  1. Добавить исходные данные в DVC
  2. Настроить любое удаленное хранилище для DVC (gdrive/s3/… etc.)
  3. Прописать пайплайн подготовки данных и обучения модели с помощью dvc pipelines. В пайплайне нужно сделать следующие шаги
    1. Необходимо сохранить предобработанные данные в dvc
    2. Разделить их на Train и Test и поместить в dvc результат
    3. Обучить енкодеры, векторайзеры, скаллеры и тд и сохранить полученные настройки в dvc
    4. Закодировать данные для обучения и тестирования модели
    5. Обучить простую модель(типа регрессии) и сохранить ее основные метрики (метрики модели на ваш выбор, но чем больше тем лучше)
  4. (*) Решить проблему с сериализацией моделей, что бы при полном перезапуске пайплайна(dvc repro --force) на каждом этапе получались одни и те же файлы с точностью до бита  (опциональное задание + 2 балла)
  5. Добавить в CI запуск вашего пайплайна
    1. (*) Сделать проверку совпадения результатов пайплайна в CI с зафиксированной версией в удаленном хранилище (опциональное задание + 2 балла)
  6. Затем заменить модель на более сложную(например random forest/ catboost) и перезапустить пайплайн и зафиксировать его результаты
  7. (*) Описать исследование сравнения двух моделей используя dvc.api для получения результатов каждой модели и опубликовать на gitlab pages  (опциональное задание + 1 балл)

Задание стоит оформить в отдельной ветке и разбить на несколько отдельных комитов (как минимум отделить пайплайн с простой моделью, со сложной моделью и сравнение результатов в разные комиты) Результатом задания будет:

  • Ссылка на ветку с заданием
  • Ссылка на исследование на gitlab pages
  • Ссылка на первый пайлайн в ci (именно запуск пайплайна в ci)
  • Ссылка на второй пайлайн в ci (именно запуск пайплайна в ci)
  • Ключи для доступа к хранилищу (убедитесь что проверяющие при необходимости смогут склонировать репозиторий и скачать данные)

За задание можно получить 20 баллов(15 основная часть + 5 дополнительная)

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy