Ended 4 months ago
258 participants
1540 submissions

Соревнование Data Fusion Contest 2022. Задача 2 Puzzle

Разминочная задача: решите Matching задачу в случае, когда все кандидаты в паре заранее известны, но сами пары не предоставлены. Простор для пост-обработки, схожей с составлением паззла.

Matchingrankingtransactionsclickstreampuzzledatafusion

Задача 2. Puzzle — разминочная задача соревнования

Необходимо решить упрощенную Matching задачу соотнесения клиентов в формате классического табличного соревнования. А именно, используя общие для всех задач Data Fusion Contest 2022 данные транзакций и кликстримов, необходимо построить алгоритм, решающий задачу в ситуации, когда все кандидаты в паре заранее известны, но сами пары не предоставлены. 

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2022.

Данные

Для решения Matching задачи во вкладке данные участникам доступны несколько наборов данных: 

  1. Общие данные для всех задач в табличном .csv формате: transactions.zipclicstream.zip и целевая переменная train_matching.csv
  2. Общие сопроводительные данные для всех задач в табличном .csv формате: mcc_codes.csvclick_categories.csv и currency_rk.csv
  3. Отдельный файл с кандидатами в пары puzzle.csv. Все клиенты из этого файла присутствуют в данных выше, но для них неизвестны истиные пары. Однако, известно, что для всех клиентов в этом файле точно имеется пара.

Ссылки на скачивание данных доступны во вкладке Данные для присоединившихся к соревнованию участников.

Проверка решений

  • Решения проверяются автоматически путем сопоставления с известными истиными соответствиями между клиентами.
  • Метрика соревнования — R1, среднее гармоническое между Precision@100 и MRR@100. В лидерборде также отражаются составляющие для R1 метрики, но именно R1 является основной метрикой соревнования.
  • Соотношение public/private в соревновании составляет 40/60. Победители соревнования определяются по результатам на private лидерборде.
  • Это соревнование тесно связано с задачей 1 Matching. Вы можете проверять свои гипотезы на этой задаче, но помните, что сложная пост-обработка со складыванием паззла может оказаться невычислимой в рамках ограничений задачи 1.

Информация для участников

  • В соревновании могут принимать участие граждане со всего мира. Участники могут объединяться в команды до 4 человек. Участвовать можно в любом количестве из предложенных задач и номинаций.
  • Ответы на часто задаваемые вопросы по задаче Matching можно найти на странице FAQ. Ответы на вопросы по всему Data Fusion Contest 2022 доступны на FAQ странице трека.
  • Официальный канал общения и обсуждения между участниками всех задач — канал #proj_data_fusion_22 в ODS #slack. Важные анонсы, объявления, и ответы на вопросы будут сперва появляться в канале ODS, после чего добавляться в FAQ и новости соревнования на ods.ai.

Дополнительные активности

  • Участвуйте в специальных номинациях, каждая из которых имеет свой призовой фонд! Делитесь вашими решениями с другими участниками соревнования в канале #proj_data_fusion_22 в рамках номинации Companion, либо отправляйте ваши нестандартные решения в номинацию Insight.
  • Следите за новостями Data Fusion Contest 2022 — вас ждут митапы и воркшопы с разборами решений задач, а также регулярные розыгрыши мерча ODS!
  • Уникальный механизм добавления предрасчитанных фичей! Вы можете создать публичное решение с генерацией фичей, которые мы добавим отдельной папкой с фичами, доступными внутри контейнера. Голосования за добавление фичей будут проходить в канале #proj_data_fusion_22, а добавленные фичи будут анонсироваться на митапах.

Призовой фонд задачи 2, Puzzle

1 место: 150 000 рублей
2 место: 100 000 рублей
3 место: 50 000 рублей

FAQ

Q: Можете сказать, откуда собираются данные в clickstream.csv?

A: В файле clickstream.csv трафик интернет-провайдера со всех сайтов, категоризованный по тематикам (интересам). Например, просмотр видео на Ютубе про мебель категоризуется в тематику "мебель". Аналогично с остальными сайтами: категоризуется не сам домен, а тематика конкретной страницы.

Q: В задаче Puzzle можно использовать модель или данные с главной задачи? А наоборот?

A: Да, вы можете использовать и модели и данные из разных задач на свое усмотрение.

Q: Я отправил сабмишн, получил статус “Failed”, но нет ссылки на текст ошибки. Что делать?

A: Скорее всего, в ваших предсказаниях представлены не все id, которые встречаются в списке id из файла transactions.csv в тесте. Это могло произойти, например, из-за фильтрации данных.

Q: Можно ли учитывать ограничение решение по времени (60 минут) только в части применения модели и не учитывать трансформацию данных?

A: Нет. Условия задачи подразумевают получить матч за 60 минут для входных потоков транзакций и кликстрима.

Q: Есть ли возможность посмотреть transactions.csv и clickstream.csv представленных в тесте? Эти ID присутствуют в данных для обучения?

A: Нет, эти данные недоступны участникам.

Q: Сколько данных в тесте?

A: В public и private содержится приблизительно по 3000 уникальных id. При этом public и private считаются раздельно, и следовательно ограничение по ресурсам и времени распространяется на раздельный подсчет public и private.