Description Данные Baselines Leaderboard

Соревнование Data Fusion Contest 2022. Задача Matching

Решите Matching задачу: по данным транзакций и кликстрима, требуется сперва построить обезличенные вектора. Затем для каждого клиента ВТБ нужно сопоставить вектора и отранжировать клиентов "Ростелекома" по вероятности их совпадения.

Matchingrankingcontainerdatafusion

Задача 1. Matching — основная задача соревнования

Необходимо решить Matching задачу соотнесения клиентов в формате контейнеров с кодом. А именно, используя данные транзакций и кликстримов, сперва построить предрассчитанные вектора. Затем для каждого клиента ВТБ требуется сопоставить полученные вектора и отранжировать клиентов “Ростелекома” по наибольшей вероятности их совпадения.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2022.

Данные

Для решения Matching задачи во вкладке данные участникам доступны несколько наборов данных:

Общие данные для всех задач в табличном .csv формате: transactions.zip, clicstream.zip и целевая переменная train_matching.csv
Общие сопроводительные данные для всех задач в табличном .csv формате: mcc_codes.csv, click_categories.csv и currency_rk.csv
Бейзлайны и примеры решений для контейнерной Matching задачи: случайное решение sample_submission.zip и baseline_catboost.zip с примером решения на библиотеке catboost с использованием GPU

Ссылки на скачивание данных доступны во вкладке Данные для присоединившихся к соревнованию участников.

Проверка решений

Решения проверяются автоматически. Запуск происходит в изолированной среде без доступа в интернет на полностью закрытых тестовых данных, которые не передаются участникам.
Тестовое множество не пересекается с доступными данными — оно состоит из новых данных клиентов ВТБ и “Ростелекома”. Соотношение public/private в соревновании составляет 50/50. Победители соревнования определяются по результатам на private лидерборде.
Метрика соревнования — R1. Аналогично метрике F1, это среднее гармоническое между Precision@100 и MRR@100. В лидерборде также отражаются составляющие для R1 метрики, но именно R1 является основной метрикой соревнования.
Как в тренировочных, так и в тестовых данных, возможны ситуации, когда для клиента ВТБ отсутствует пара в данных “Ростелекома”. В таком случае, истиной парой для клиента считается rtk_id=0. Этот специальный случай отсутствия пары также необходимо учитывать в разработке решений для Matching задачи.

Доступные ресурсы для решений

8 ядер CPU
96Gb RAM
Видеокарта NVidia Tesla V100

Для отладки решений можно также решать упрощенную задачу Puzzle, которая реализована в классическом табличном формате проверки.

Ограничения для решений

5Gb для архива с решением
60 минут на работу решения
5 решений в день на команду

Информация для участников

В соревновании могут принимать участие граждане со всего мира. Участники могут объединяться в команды до 4-ёх человек. Участвовать можно в любом количестве из предложенных задач и номинаций.
Ответы на часто задаваемые вопросы по задаче Matching можно найти на странице FAQ. Ответы на вопросы по всему Data Fusion Contest 2022 доступны на FAQ странице трека.
Официальный канал общения и обсуждения между участниками всех задач — канал #proj_data_fusion_22 в ODS #slack. Важные анонсы, объявления и ответы на вопросы будут сперва появляться в канале ODS, после чего добавляться в FAQ и новости соревнования на ods.ai.

Дополнительные активности

Участвуйте в специальных номинациях, каждая из которых имеет свой призовой фонд! Делитесь вашими решениями с другими участниками соревнования в канале #proj_data_fusion_22 в рамках номинации Companion, либо отправляйте ваши нестандартные решения в номинацию Insight.
Следите за новостями Data Fusion Contest 2022 — вас ждут митапы и воркшопы с разборами решений задач, а также регулярные розыгрыши мерча ODS!
Уникальный механизм добавления предрасчитанных фичей! Вы можете создать публичное решение с генерацией фичей, которые мы добавим отдельной папкой с фичами, доступными внутри контейнера. Голосования за добавление фичей будут проходить в канале #proj_data_fusion_22, а добавленные фичи будут анонсироваться на митапах.

Призовой фонд задачи 1, Matching

1 место: 500 000 рублей
2 место: 300 000 рублей
3 место: 200 000 рублей
4 и 5 место: 100 000 рублей
с 6 по 10 место: 50 000 рублей

FAQ

Q: Можете сказать, откуда собираются данные в clickstream.csv?

A: В файле clickstream.csv трафик интернет-провайдера со всех сайтов, категоризованный по тематикам (интересам). Например, просмотр видео на Ютубе про мебель категоризуется в тематику "мебель". Аналогично с остальными сайтами: категоризуется не сам домен, а тематика конкретной страницы.

Q: В задаче Puzzle можно использовать модель или данные с главной задачи? А наоборот?

A: Да, вы можете использовать и модели и данные из разных задач на свое усмотрение.

Q: Я отправил сабмишн, получил статус “Failed”, но нет ссылки на текст ошибки. Что делать?

A: Скорее всего, в ваших предсказаниях представлены не все id, которые встречаются в списке id из файла transactions.csv в тесте. Это могло произойти, например, из-за фильтрации данных.

Q: Можно ли учитывать ограничение решение по времени (60 минут) только в части применения модели и не учитывать трансформацию данных?

A: Нет. Условия задачи подразумевают получить матч за 60 минут для входных потоков транзакций и кликстрима.

Q: Есть ли возможность посмотреть transactions.csv и clickstream.csv представленных в тесте? Эти ID присутствуют в данных для обучения?

A: Нет, эти данные недоступны участникам.

Q: Сколько данных в тесте?

A: В public и private содержится приблизительно по 3000 уникальных id. При этом public и private считаются раздельно, и следовательно ограничение по ресурсам и времени распространяется на раздельный подсчет public и private.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy

Learn More