Ended 21 months ago
403 participants
1380 submissions

Хакатон AI Academy 2022

Сгенерируйте описание видео

Задача
В задаче Video Captioning (создание текстового описания к видео) модели необходимо проанализировать короткий видеофрагмент и сгенерировать наиболее подходящее текстовое описание на английском языке, которое характеризует события и/или действия, происходящие на видео.

Формат решений
Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Ответы, полученные моделью Участника, должны быть сохранены в файл answer.csv, где в колонке ‘captions’ записано описание для каждого видео в порядке их записи в файле input_test.csv

В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений. 

Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.
Контейнер с решением запускается в следующих условиях:

  • Доступ к 1 GPU
  • 40 минут
  • решение не имеет доступа к ресурсам интернета
  • максимальный размер упакованного и распакованного архива с решением: 15гб
  • максимальный размер используемого Docker-образа: 10гб


Метрика
Для оценки решений участников будет использована метрика BLEU, которая позволяет сравнить эталонный и предсказанный текст. При этом BLEU оценивает не только соответствие отдельных слов, но и n-грамм, содержащихся в тексте.
Метрика BLEU была изначально предложена для оценки качества машинного перевода, однако она может применяться в любых задачах, в которых необходимо оценить близость двух текстов (при этом, допуская вариативность текстов-кандидатов, что важно в задаче описания видео).

Baseline
Вам доступно базовое решение от разработчиков задачи с использованием фреймворка PyTorch. 
Пример скрипта для обучения модели приведен по ссылке.

Предполагаемый пайплайн работы модели включает в себя следующие этапы: вычисление для входного видео эмбеддингов, которые далее пропускаются через MLP адаптер для GPT декодера и декодер предсказывает ответ.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.