Ended 2 years ago
404 participants
1380 submissions

Хакатон AI Academy 2022

Сгенерируйте описание видео

Задача
В задаче Video Captioning (создание текстового описания к видео) модели необходимо проанализировать короткий видеофрагмент и сгенерировать наиболее подходящее текстовое описание на английском языке, которое характеризует события и/или действия, происходящие на видео.

Формат решений
Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Ответы, полученные моделью Участника, должны быть сохранены в файл answer.csv, где в колонке ‘captions’ записано описание для каждого видео в порядке их записи в файле input_test.csv

В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений. 

Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.
Контейнер с решением запускается в следующих условиях:

  • Доступ к 1 GPU
  • 40 минут
  • решение не имеет доступа к ресурсам интернета
  • максимальный размер упакованного и распакованного архива с решением: 15гб
  • максимальный размер используемого Docker-образа: 10гб


Метрика
Для оценки решений участников будет использована метрика BLEU, которая позволяет сравнить эталонный и предсказанный текст. При этом BLEU оценивает не только соответствие отдельных слов, но и n-грамм, содержащихся в тексте.
Метрика BLEU была изначально предложена для оценки качества машинного перевода, однако она может применяться в любых задачах, в которых необходимо оценить близость двух текстов (при этом, допуская вариативность текстов-кандидатов, что важно в задаче описания видео).

Baseline
Вам доступно базовое решение от разработчиков задачи с использованием фреймворка PyTorch. 
Пример скрипта для обучения модели приведен по ссылке.

Предполагаемый пайплайн работы модели включает в себя следующие этапы: вычисление для входного видео эмбеддингов, которые далее пропускаются через MLP адаптер для GPT декодера и декодер предсказывает ответ.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy