Data Fusion Contest 2025 — Open Data Science

Description FAQ Спец активности Контент с митапов

Задачи соревнования Data Fusion Contest 2025 тем или иным способом моделируют реальные сюжеты из практики специалистов по анализу данных.

TL;DR:
1. Все специальные механики привязаны к механикам публичных решений. Их самих вместе с обсуждениями из первых рук можно найти в чате участников.
2. Все дополнительные данные в задачах будут доступны всем участникам соревнования при условии исполнения специальных механик.
3. Крайняя дата реализации специальных механик привязана к дедлайну номинации лучших публичных решений (16 марта 23:59:59) и датой второго митапа (20 марта).

Задача 1 "Label Craft" (завершена)

Механика “Wishlist” (WL)

Ключевой особенностью этой задачи является то, что как и в реальной жизни, очень не хватает разметки. Но ведь в реальной жизни всегда можно дополнительную разметку запросить. И иногда это даже может закончиться успешно.

При старте соревнования у участников есть unlabeled_train.parquet — дополнительные данные без истинной разметки. Если участники смогут скооперироваться, после экватора соревнования они могут получить часть истинной разметки для этих дополнительных данных. Но какую именно часть?

Что и как могут сделать участники?

🤖 Чтобы начать претендовать на дополнительную разметку, нужно отправить публичное решение задачи “Label Carft”:
— Учитываются только решения, включающие использование доразметки данных.
— Доразметка должна быть публично воспроизводимой, сами полученные файлы сабмитить не обязательно.
🤖 Как указать то, на какую именно часть неразмеченных данных хочется получить истинные метки?
— В публичном решении должен присутствовать анализ результатов доразметки, и wishlist товаров, по которым хотелось бы истинную разметку получить.
— Наивный запрос по всему списку товаров тоже засчитывается за wishlist запрос.
🤖 Суммарно все участники могут за счет механики WL получить до 20% товаров из unlabeled_train.parquet:
— Одно оригинальное публичное решение (на усмотрение организаторов) может претендовать на 1/20 или 1% от дополнительной разметки.
— Если запрос одного wishlist превышает 1% данных, то wishlist случайно равномерно семплируется чтобы уложиться в свою квоту (до 1%).
🤖 Дедлайн на публичные решения — такой же, как у номинации Companion (16 марта 23:59:59). Подведение итогов пройдёт на втором митапе, вместе с подведением итогов Companion и других специальных событий на втором митапе (20 марта).

Чем больше будет публичных решений по доразметке, тем больше разметки можно получить. Если таких решений не будет совсем — не будет и доразметки.

Задача 2, “4Cast” (завершена)

Механика “Второй Шанс” (SC)

Занимаясь задачами прогнозирования, рано или поздно наступает момент, когда интересующее вас “будущее” сперва наступает, а затем плавно перетекает в обучающие данные.

За 3 недели до окончания соревнования участников задачи 4Сast ждёт специальное событие в задаче по прогнозированию 4Cast — наступит будущее:

1. Участники получат дополнительные данные:
— Транзакции за предыдущий тестовый период (с августа по октябрь: transactions_5.parquet и transactions_extra_5.parquet)
— Обновленные дополнительные данные (calendar_extended.csv, profiles_extended.parquet)
— Тестовые данные, которые нужно было предсказывать ранее (target_series_extended.parquet)

2. Раз будущее уже наступило, задача участников тоже обновится:
— Теперь, на основе обновленных данных, им нужно сделать точно такой же прогноз по тем же самым клиентам ВТБ
— Отличие в том, что теперь прогноз нужен на уже следующие 12 недель: с конца октября по середину января (недели с 118 по 129)
— Формат решений (sample_submit.csv) изменится соответствующим образом: от решений ожидаются точно такие же прогнозы что и ранее, но уже на следующие 12 недель, а не на предыдущие (те в свою очередь теперь станут частью обучающих данных).

3. Лидерборды обновятся подстать наступившему будущему:
— Лидерборды на основе предыдущих данных будут зафиксированы по состоянию на 00:00 следующего после наступления будущего дня (16 марта в 00:00). И Public и Private
— Прежние Public и Private будут переименованы в Val. Public и Val. Private, и оба открыты для участников. Прежний Private (ныне Val. Private) будет работать по “боевой” логике, с учетом выбранных на текущий момент финальных решений (в том числе и автоматический выбор).
— Обновленные Public и Private (закрытый для участников до конца соревнования) будут настроены под обновленный формат решений. Предыдущие решения станут неактуальны, поэтому лидерборд будет наполняться с нуля по мере появления обновленных сабмитов от участников.

Открытие результатов по уже устаревшим данным будет вторым шансом для проверки того, удалось ли настроить свою валидацию.

Что и как могут сделать участники?

🔮 Чтобы повлиять на дату наступления будущего, нужно отправлять публичные решения задачи “4Cast”, и указывать в них своё желание.
🔮 В валидных публичных решениях достаточно дописать, что хотелось бы наступление будущего ускорить, либо же отложить (хоть в Description.md, хоть Markdown блоком в конце ноутбука).
🔮 Засчитывается не более одного пожелания даты будущего в публичном решении от одного участника (условно как +1 чтобы наступило позже, -1 чтобы наступило раньше).
🔮 Голоса валидных (по усмотрению жюри номинации) публичных решений складываются. Раз в неделю (по пятницам) будем обновлять актуальную сумму голосов.

Задача 3, “Distribution” (завершена)

Механика “Сложный выбор” (HC)

В этой учебной задаче и так уже реализован сюжет пришедшего на практику стажера. Однако, чтобы открылась специальная механика, нужно сделать сложный выбор:
А) Получить в качестве данных задачи что-то, что участникам нужно
Б) Получить для решения задачи что-то, что участники бы хотели

Что и как могут сделать участники?

🤓️️️️️️ У механики сложного выбора HC есть скрытый счетчик “кармы”, на основе которой сложный выбор участников будет сделан и озвучен на втором митапе.
🤓️️️️️️ Повысить вероятность выбора (А) можно за счет публичных решений — образовательных туториалов на основе данных задачи “Distribution”.

P.S. Так как публичных решений по задаче 3 не было предоставлено в срок, в течение соревнования никаких дополнительных данных участникам не предоставляется.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy

Learn More