Ended 11 months ago
112 participants
547 submissions

Hidden
Финал профиля “Искусственный интеллект”

Сгенерируйте наиболее подходящие ответы

Задача

В задаче Video Question Answering модели необходимо проанализировать короткие видеофрагменты и представленные к ним вопросы по содержанию и запечатленным  событиям и/или действиям, чтобы сгенерировать наиболее подходящие ответы на русском языке.
 

Формат решений

Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Ответы, полученные моделью Участника, должны быть сохранены в файл answer.csv, где в колонке ‘answer’ записан ответ на соответствующий вопрос по каждому видео в порядке их записи в файле public_test_input.csv

В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений. 

Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.

Контейнер с решением запускается в следующих условиях:

  • 8 ядер CPU
  • 96 GB RAM
  • Видеокарта NVidia Tesla V100
  • 30 минут на работу решения: 15 минут на public часть и 15 минут на private
  • решение не имеет доступа к ресурсам интернета
  • максимальный размер упакованного и распакованного архива с решением: 5гб
  • максимальный размер используемого Docker-образа: 10гб

Метрика

Для оценки решений участников будет использована метрика BLEU, которая позволяет сравнить эталонный и предсказанный текст. При этом BLEU оценивает не только соответствие отдельных слов, но и n-грамм, содержащихся в тексте.

Метрика BLEU была изначально предложена для оценки качества машинного перевода, однако она может применяться в любых задачах, в которых необходимо оценить близость двух текстов (при этом, допуская вариативность текстов-кандидатов, что важно в задаче описания видео).

Baseline

Вам доступно базовое решение от разработчиков задачи с использованием фреймворка PyTorch.

Пример скрипта для обучения модели приведен по ссылке:

  1. https://drive.google.com/file/d/1PN5NmFHZ1VoSH-wQOtPO8Q_ctQmNyOhL/view?usp=share_link

Предполагаемый пайплайн работы модели включает в себя следующие этапы: вычисление для входного видео эмбеддингов, которые далее пропускаются через MLP адаптер для GPT декодера и декодер предсказывает ответ. Однако участники вольны предложить собственную архитектуру.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.