Сгенерируйте наиболее подходящие ответы
В задаче Video Question Answering модели необходимо проанализировать короткие видеофрагменты и представленные к ним вопросы по содержанию и запечатленным событиям и/или действиям, чтобы сгенерировать наиболее подходящие ответы на русском языке.
Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Ответы, полученные моделью Участника, должны быть сохранены в файл answer.csv, где в колонке ‘answer’ записан ответ на соответствующий вопрос по каждому видео в порядке их записи в файле public_test_input.csv
В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений.
Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.
Контейнер с решением запускается в следующих условиях:
Для оценки решений участников будет использована метрика BLEU, которая позволяет сравнить эталонный и предсказанный текст. При этом BLEU оценивает не только соответствие отдельных слов, но и n-грамм, содержащихся в тексте.
Метрика BLEU была изначально предложена для оценки качества машинного перевода, однако она может применяться в любых задачах, в которых необходимо оценить близость двух текстов (при этом, допуская вариативность текстов-кандидатов, что важно в задаче описания видео).
Вам доступно базовое решение от разработчиков задачи с использованием фреймворка PyTorch.
Пример скрипта для обучения модели приведен по ссылке:
Предполагаемый пайплайн работы модели включает в себя следующие этапы: вычисление для входного видео эмбеддингов, которые далее пропускаются через MLP адаптер для GPT декодера и декодер предсказывает ответ. Однако участники вольны предложить собственную архитектуру.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.