Ended 2 years ago
112 participants
547 submissions

Hidden
Финал профиля “Искусственный интеллект”

Сгенерируйте наиболее подходящие ответы

Задача

В задаче Video Question Answering модели необходимо проанализировать короткие видеофрагменты и представленные к ним вопросы по содержанию и запечатленным  событиям и/или действиям, чтобы сгенерировать наиболее подходящие ответы на русском языке.
 

Формат решений

Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Ответы, полученные моделью Участника, должны быть сохранены в файл answer.csv, где в колонке ‘answer’ записан ответ на соответствующий вопрос по каждому видео в порядке их записи в файле public_test_input.csv

В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений. 

Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.

Контейнер с решением запускается в следующих условиях:

  • 8 ядер CPU
  • 96 GB RAM
  • Видеокарта NVidia Tesla V100
  • 30 минут на работу решения: 15 минут на public часть и 15 минут на private
  • решение не имеет доступа к ресурсам интернета
  • максимальный размер упакованного и распакованного архива с решением: 5гб
  • максимальный размер используемого Docker-образа: 10гб

Метрика

Для оценки решений участников будет использована метрика BLEU, которая позволяет сравнить эталонный и предсказанный текст. При этом BLEU оценивает не только соответствие отдельных слов, но и n-грамм, содержащихся в тексте.

Метрика BLEU была изначально предложена для оценки качества машинного перевода, однако она может применяться в любых задачах, в которых необходимо оценить близость двух текстов (при этом, допуская вариативность текстов-кандидатов, что важно в задаче описания видео).

Baseline

Вам доступно базовое решение от разработчиков задачи с использованием фреймворка PyTorch.

Пример скрипта для обучения модели приведен по ссылке:

  1. https://drive.google.com/file/d/1PN5NmFHZ1VoSH-wQOtPO8Q_ctQmNyOhL/view?usp=share_link

Предполагаемый пайплайн работы модели включает в себя следующие этапы: вычисление для входного видео эмбеддингов, которые далее пропускаются через MLP адаптер для GPT декодера и декодер предсказывает ответ. Однако участники вольны предложить собственную архитектуру.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy