Ended 4 days ago
509 participants
3119 submissions

Соревнование Data Fusion Contest 2022. Задача Matching

Решите Matching задачу: по данным транзакций и кликстрима, требуется сперва построить обезличенные вектора. Затем для каждого клиента ВТБ нужно сопоставить вектора и отранжировать клиентов "Ростелекома" по вероятности их совпадения.

Matchingrankingcontainerdatafusion

Задача 1. Matching — основная задача соревнования

Необходимо решить Matching задачу соотнесения клиентов в формате контейнеров с кодом. А именно, используя данные транзакций и кликстримов, сперва построить предрассчитанные вектора. Затем для каждого клиента ВТБ требуется сопоставить полученные вектора и отранжировать клиентов “Ростелекома” по наибольшей вероятности их совпадения. 

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2022.

Данные

Для решения Matching задачи во вкладке данные участникам доступны несколько наборов данных: 

  1. Общие данные для всех задач в табличном .csv формате: transactions.zipclicstream.zip и целевая переменная train_matching.csv
  2. Общие сопроводительные данные для всех задач в табличном .csv формате: mcc_codes.csvclick_categories.csv и currency_rk.csv
  3. Бейзлайны и примеры решений для контейнерной Matching задачи: случайное решение sample_submission.zip и baseline_catboost.zip с примером решения на библиотеке catboost с использованием GPU

Ссылки на скачивание данных доступны во вкладке Данные для присоединившихся к соревнованию участников.

Проверка решений

  • Решения проверяются автоматически. Запуск происходит в изолированной среде без доступа в интернет на полностью закрытых тестовых данных, которые не передаются участникам.
  • Тестовое множество не пересекается с доступными данными — оно состоит из новых данных клиентов ВТБ и “Ростелекома”. Соотношение public/private в соревновании составляет 50/50. Победители соревнования определяются по результатам на private лидерборде.
  • Метрика соревнования — R1. Аналогично метрике F1, это среднее гармоническое между Precision@100 и MRR@100. В лидерборде также отражаются составляющие для R1 метрики, но именно R1 является основной метрикой соревнования.
  • Как в тренировочных, так и в тестовых данных, возможны ситуации, когда для клиента ВТБ отсутствует пара в данных “Ростелекома”. В таком случае, истиной парой для клиента считается rtk_id=0. Этот специальный случай отсутствия пары также необходимо учитывать в разработке решений для Matching задачи.

Доступные ресурсы для решений

  • 8 ядер CPU
  • 96Gb RAM
  • Видеокарта NVidia Tesla V100

Для отладки решений можно также решать упрощенную задачу Puzzle, которая реализована в классическом табличном формате проверки. 

Ограничения для решений

  • 5Gb для архива с решением
  • 60 минут на работу решения
  • 5 решений в день на команду

Информация для участников

  • В соревновании могут принимать участие граждане со всего мира. Участники могут объединяться в команды до 4-ёх человек. Участвовать можно в любом количестве из предложенных задач и номинаций.
  • Ответы на часто задаваемые вопросы по задаче Matching можно найти на странице FAQ. Ответы на вопросы по всему Data Fusion Contest 2022 доступны на FAQ странице трека.
  • Официальный канал общения и обсуждения между участниками всех задач — канал #proj_data_fusion_22 в ODS #slack. Важные анонсы, объявления и ответы на вопросы будут сперва появляться в канале ODS, после чего добавляться в FAQ и новости соревнования на ods.ai.

Дополнительные активности

  • Участвуйте в специальных номинациях, каждая из которых имеет свой призовой фонд! Делитесь вашими решениями с другими участниками соревнования в канале #proj_data_fusion_22 в рамках номинации Companion, либо отправляйте ваши нестандартные решения в номинацию Insight.
  • Следите за новостями Data Fusion Contest 2022 — вас ждут митапы и воркшопы с разборами решений задач, а также регулярные розыгрыши мерча ODS!
  • Уникальный механизм добавления предрасчитанных фичей! Вы можете создать публичное решение с генерацией фичей, которые мы добавим отдельной папкой с фичами, доступными внутри контейнера. Голосования за добавление фичей будут проходить в канале #proj_data_fusion_22, а добавленные фичи будут анонсироваться на митапах.

Призовой фонд задачи 1, Matching

1 место: 500 000 рублей
2 место: 300 000 рублей
3 место: 200 000 рублей
4 и 5 место: 100 000 рублей
с 6 по 10 место: 50 000 рублей

FAQ

Q: Можете сказать, откуда собираются данные в clickstream.csv?

A: В файле clickstream.csv трафик интернет-провайдера со всех сайтов, категоризованный по тематикам (интересам). Например, просмотр видео на Ютубе про мебель категоризуется в тематику "мебель". Аналогично с остальными сайтами: категоризуется не сам домен, а тематика конкретной страницы.

Q: В задаче Puzzle можно использовать модель или данные с главной задачи? А наоборот?

A: Да, вы можете использовать и модели и данные из разных задач на свое усмотрение.

Q: Я отправил сабмишн, получил статус “Failed”, но нет ссылки на текст ошибки. Что делать?

A: Скорее всего, в ваших предсказаниях представлены не все id, которые встречаются в списке id из файла transactions.csv в тесте. Это могло произойти, например, из-за фильтрации данных.

Q: Можно ли учитывать ограничение решение по времени (60 минут) только в части применения модели и не учитывать трансформацию данных?

A: Нет. Условия задачи подразумевают получить матч за 60 минут для входных потоков транзакций и кликстрима.

Q: Есть ли возможность посмотреть transactions.csv и clickstream.csv представленных в тесте? Эти ID присутствуют в данных для обучения?

A: Нет, эти данные недоступны участникам.

Q: Сколько данных в тесте?

A: В public и private содержится приблизительно по 3000 уникальных id. При этом public и private считаются раздельно, и следовательно ограничение по ресурсам и времени распространяется на раздельный подсчет public и private.