Финал профиля “Искусственный интеллект”

Hidden

Сгенерируйте наиболее подходящие ответы

Задача

В задаче Video Question Answering модели необходимо проанализировать короткие видеофрагменты и представленные к ним вопросы по содержанию и запечатленным событиям и/или действиям, чтобы сгенерировать наиболее подходящие ответы на русском языке.

Формат решений

Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Ответы, полученные моделью Участника, должны быть сохранены в файл answer.csv, где в колонке ‘answer’ записан ответ на соответствующий вопрос по каждому видео в порядке их записи в файле public_test_input.csv

В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений.

Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.

Контейнер с решением запускается в следующих условиях:

8 ядер CPU
96 GB RAM
Видеокарта NVidia Tesla V100
30 минут на работу решения: 15 минут на public часть и 15 минут на private
решение не имеет доступа к ресурсам интернета
максимальный размер упакованного и распакованного архива с решением: 5гб
максимальный размер используемого Docker-образа: 10гб

Метрика

Для оценки решений участников будет использована метрика BLEU, которая позволяет сравнить эталонный и предсказанный текст. При этом BLEU оценивает не только соответствие отдельных слов, но и n-грамм, содержащихся в тексте.

Метрика BLEU была изначально предложена для оценки качества машинного перевода, однако она может применяться в любых задачах, в которых необходимо оценить близость двух текстов (при этом, допуская вариативность текстов-кандидатов, что важно в задаче описания видео).

Baseline

Вам доступно базовое решение от разработчиков задачи с использованием фреймворка PyTorch.

Пример скрипта для обучения модели приведен по ссылке:

https://drive.google.com/file/d/1PN5NmFHZ1VoSH-wQOtPO8Q_ctQmNyOhL/view?usp=share_link

Предполагаемый пайплайн работы модели включает в себя следующие этапы: вычисление для входного видео эмбеддингов, которые далее пропускаются через MLP адаптер для GPT декодера и декодер предсказывает ответ. Однако участники вольны предложить собственную архитектуру.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy

Learn More

HiddenФинал профиля “Искусственный интеллект”

Задача

Формат решений

Метрика

Baseline

Hidden
Финал профиля “Искусственный интеллект”