Задачи соревнования Data Fusion Contest 2025 тем или иным способом моделируют реальные сюжеты из практики специалистов по анализу данных.
TL;DR:
1. Все специальные механики привязаны к механикам публичных решений. Их самих вместе с обсуждениями из первых рук можно найти в чате участников.
2. Все дополнительные данные в задачах будут доступны всем участникам соревнования при условии исполнения специальных механик.
3. Крайняя дата реализации специальных механик привязана к дедлайну номинации лучших публичных решений (16 марта 23:59:59) и датой второго митапа (20 марта).
Ключевой особенностью этой задачи является то, что как и в реальной жизни, очень не хватает разметки. Но ведь в реальной жизни всегда можно дополнительную разметку запросить. И иногда это даже может закончиться успешно.
При старте соревнования у участников есть unlabeled_train.parquet
— дополнительные данные без истинной разметки. Если участники смогут скооперироваться, после экватора соревнования они могут получить часть истинной разметки для этих дополнительных данных. Но какую именно часть?
🤖 Чтобы начать претендовать на дополнительную разметку, нужно отправить публичное решение задачи “Label Carft”:
— Учитываются только решения, включающие использование доразметки данных.
— Доразметка должна быть публично воспроизводимой, сами полученные файлы сабмитить не обязательно.
🤖 Как указать то, на какую именно часть неразмеченных данных хочется получить истинные метки?
— В публичном решении должен присутствовать анализ результатов доразметки, и wishlist товаров, по которым хотелось бы истинную разметку получить.
— Наивный запрос по всему списку товаров тоже засчитывается за wishlist запрос.
🤖 Суммарно все участники могут за счет механики WL получить до 20% товаров из unlabeled_train.parquet
:
— Одно оригинальное публичное решение (на усмотрение организаторов) может претендовать на 1/20 или 1% от дополнительной разметки.
— Если запрос одного wishlist превышает 1% данных, то wishlist случайно равномерно семплируется чтобы уложиться в свою квоту (до 1%).
🤖 Дедлайн на публичные решения — такой же, как у номинации Companion (16 марта 23:59:59). Подведение итогов пройдёт на втором митапе, вместе с подведением итогов Companion и других специальных событий на втором митапе (20 марта).
Чем больше будет публичных решений по доразметке, тем больше разметки можно получить. Если таких решений не будет совсем — не будет и доразметки.
Занимаясь задачами прогнозирования, рано или поздно наступает момент, когда интересующее вас “будущее” сперва наступает, а затем плавно перетекает в обучающие данные.
За 3 недели до окончания соревнования участников задачи 4Сast ждёт специальное событие в задаче по прогнозированию 4Cast — наступит будущее:
1. Участники получат дополнительные данные:
— Транзакции за предыдущий тестовый период (с августа по октябрь: transactions_5.parquet
и transactions_extra_5.parquet
)
— Обновленные дополнительные данные (calendar_extended.csv
, profiles_extended.parquet
)
— Тестовые данные, которые нужно было предсказывать ранее (target_series_extended.parquet
)
2. Раз будущее уже наступило, задача участников тоже обновится:
— Теперь, на основе обновленных данных, им нужно сделать точно такой же прогноз по тем же самым клиентам ВТБ
— Отличие в том, что теперь прогноз нужен на уже следующие 12 недель: с конца октября по середину января (недели с 118 по 129)
— Формат решений (sample_submit.csv
) изменится соответствующим образом: от решений ожидаются точно такие же прогнозы что и ранее, но уже на следующие 12 недель, а не на предыдущие (те в свою очередь теперь станут частью обучающих данных).
3. Лидерборды обновятся подстать наступившему будущему:
— Лидерборды на основе предыдущих данных будут зафиксированы по состоянию на 00:00 следующего после наступления будущего дня (16 марта в 00:00). И Public и Private
— Прежние Public и Private будут переименованы в Val. Public и Val. Private, и оба открыты для участников. Прежний Private (ныне Val. Private) будет работать по “боевой” логике, с учетом выбранных на текущий момент финальных решений (в том числе и автоматический выбор).
— Обновленные Public и Private (закрытый для участников до конца соревнования) будут настроены под обновленный формат решений. Предыдущие решения станут неактуальны, поэтому лидерборд будет наполняться с нуля по мере появления обновленных сабмитов от участников.
Открытие результатов по уже устаревшим данным будет вторым шансом для проверки того, удалось ли настроить свою валидацию.
🔮 Чтобы повлиять на дату наступления будущего, нужно отправлять публичные решения задачи “4Cast”, и указывать в них своё желание.
🔮 В валидных публичных решениях достаточно дописать, что хотелось бы наступление будущего ускорить, либо же отложить (хоть в Description.md, хоть Markdown блоком в конце ноутбука).
🔮 Засчитывается не более одного пожелания даты будущего в публичном решении от одного участника (условно как +1 чтобы наступило позже, -1 чтобы наступило раньше).
🔮 Голоса валидных (по усмотрению жюри номинации) публичных решений складываются. Раз в неделю (по пятницам) будем обновлять актуальную сумму голосов.
В этой учебной задаче и так уже реализован сюжет пришедшего на практику стажера. Однако, чтобы открылась специальная механика, нужно сделать сложный выбор:
А) Получить в качестве данных задачи что-то, что участникам нужно
Б) Получить для решения задачи что-то, что участники бы хотели
🤓️️️️️️ У механики сложного выбора HC есть скрытый счетчик “кармы”, на основе которой сложный выбор участников будет сделан и озвучен на втором митапе.
🤓️️️️️️ Повысить вероятность выбора (А) можно за счет публичных решений — образовательных туториалов на основе данных задачи “Distribution”.
P.S. Так как публичных решений по задаче 3 не было предоставлено в срок, в течение соревнования никаких дополнительных данных участникам не предоставляется.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.