Сгенерируйте описание видео
Задача
В задаче Video Captioning (создание текстового описания к видео) модели необходимо проанализировать короткий видеофрагмент и сгенерировать наиболее подходящее текстовое описание на английском языке, которое характеризует события и/или действия, происходящие на видео.
Формат решений
Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Ответы, полученные моделью Участника, должны быть сохранены в файл answer.csv, где в колонке ‘captions’ записано описание для каждого видео в порядке их записи в файле input_test.csv
В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений.
Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.
Контейнер с решением запускается в следующих условиях:
Метрика
Для оценки решений участников будет использована метрика BLEU, которая позволяет сравнить эталонный и предсказанный текст. При этом BLEU оценивает не только соответствие отдельных слов, но и n-грамм, содержащихся в тексте.
Метрика BLEU была изначально предложена для оценки качества машинного перевода, однако она может применяться в любых задачах, в которых необходимо оценить близость двух текстов (при этом, допуская вариативность текстов-кандидатов, что важно в задаче описания видео).
Baseline
Вам доступно базовое решение от разработчиков задачи с использованием фреймворка PyTorch.
Пример скрипта для обучения модели приведен по ссылке.
Предполагаемый пайплайн работы модели включает в себя следующие этапы: вычисление для входного видео эмбеддингов, которые далее пропускаются через MLP адаптер для GPT декодера и декодер предсказывает ответ.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.