Ended 6 months ago
62 participants
54 submissions

Задание по блоку DVC (курс MLOps и production в DS исследованиях 3.0)

Цель домашнего задания познакомится с базовыми функционалом dvc.

Предлагается использовать данные из датасета Amazon reviews, но так же можно использовать свои данные для выполнения задания. Задание состоит из следующих шагов:

  1. Добавить исходные данные в DVC
  2. Настроить любое удаленное хранилище для DVC (gdrive/s3/… etc.)
  3. Прописать пайплайн подготовки данных и обучения модели с помощью dvc pipelines. В пайплайне нужно сделать следующие шаги
    1. Необходимо сохранить предобработанные данные в dvc
    2. Разделить их на Train и Test и поместить в dvc результат
    3. Обучить енкодеры, векторайзеры, скаллеры и тд и сохранить полученные настройки в dvc
    4. Закодировать данные для обучения и тестирования модели
    5. Обучить простую модель(типа регрессии) и сохранить ее основные метрики (метрики модели на ваш выбор, но чем больше тем лучше)
  4. (*) Решить проблему с сериализацией моделей, что бы при полном перезапуске пайплайна(dvc repro --force) на каждом этапе получались одни и те же файлы с точностью до бита  (опциональное задание + 2 балла)
  5. Добавить в CI запуск вашего пайплайна
    1. (*) Сделать проверку совпадения результатов пайплайна в CI с зафиксированной версией в удаленном хранилище (опциональное задание + 2 балла)
  6. Затем заменить модель на более сложную(например random forest/ catboost) и перезапустить пайплайн и зафиксировать его результаты
  7. (*) Описать исследование сравнения двух моделей используя dvc.api для получения результатов каждой модели и опубликовать на gitlab pages  (опциональное задание + 1 балл)

Задание стоит оформить в отдельной ветке и разбить на несколько отдельных комитов (как минимум отделить пайплайн с простой моделью, со сложной моделью и сравнение результатов в разные комиты) Результатом задания будет:

  • Ссылка на ветку с заданием
  • Ссылка на исследование на gitlab pages
  • Ссылка на первый пайлайн в ci (именно запуск пайплайна в ci)
  • Ссылка на второй пайлайн в ci (именно запуск пайплайна в ci)
  • Ключи для доступа к хранилищу (убедитесь что проверяющие при необходимости смогут склонировать репозиторий и скачать данные)

За задание можно получить 20 баллов(15 основная часть + 5 дополнительная)

Cookies help us deliver our services. By using our services, you agree to our use of cookies.