Решите Matching задачу: по данным транзакций и кликстрима, требуется сперва построить обезличенные вектора. Затем для каждого клиента ВТБ нужно сопоставить вектора и отранжировать клиентов "Ростелекома" по вероятности их совпадения.
Matchingrankingcontainerdatafusion
Необходимо решить Matching задачу соотнесения клиентов в формате контейнеров с кодом. А именно, используя данные транзакций и кликстримов, сперва построить предрассчитанные вектора. Затем для каждого клиента ВТБ требуется сопоставить полученные вектора и отранжировать клиентов “Ростелекома” по наибольшей вероятности их совпадения.
Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2022.
Для решения Matching задачи во вкладке данные участникам доступны несколько наборов данных:
.csv
формате: transactions.zip
, clicstream.zip
и целевая переменная train_matching.csv
.csv
формате: mcc_codes.csv
, click_categories.csv
и currency_rk.csv
sample_submission.zip
и baseline_catboost.zip
с примером решения на библиотеке catboost с использованием GPUСсылки на скачивание данных доступны во вкладке Данные для присоединившихся к соревнованию участников.
R1
. Аналогично метрике F1, это среднее гармоническое между Precision@100
и MRR@100
. В лидерборде также отражаются составляющие для R1
метрики, но именно R1
является основной метрикой соревнования.rtk_id=0
. Этот специальный случай отсутствия пары также необходимо учитывать в разработке решений для Matching задачи.Для отладки решений можно также решать упрощенную задачу Puzzle, которая реализована в классическом табличном формате проверки.
1 место: 500 000 рублей
2 место: 300 000 рублей
3 место: 200 000 рублей
4 и 5 место: 100 000 рублей
с 6 по 10 место: 50 000 рублей
Q: Можете сказать, откуда собираются данные в clickstream.csv?
A: В файле clickstream.csv трафик интернет-провайдера со всех сайтов, категоризованный по тематикам (интересам). Например, просмотр видео на Ютубе про мебель категоризуется в тематику "мебель". Аналогично с остальными сайтами: категоризуется не сам домен, а тематика конкретной страницы.
Q: В задаче Puzzle можно использовать модель или данные с главной задачи? А наоборот?
A: Да, вы можете использовать и модели и данные из разных задач на свое усмотрение.
Q: Я отправил сабмишн, получил статус “Failed”, но нет ссылки на текст ошибки. Что делать?
A: Скорее всего, в ваших предсказаниях представлены не все id, которые встречаются в списке id из файла transactions.csv в тесте. Это могло произойти, например, из-за фильтрации данных.
Q: Можно ли учитывать ограничение решение по времени (60 минут) только в части применения модели и не учитывать трансформацию данных?
A: Нет. Условия задачи подразумевают получить матч за 60 минут для входных потоков транзакций и кликстрима.
Q: Есть ли возможность посмотреть transactions.csv и clickstream.csv представленных в тесте? Эти ID присутствуют в данных для обучения?
A: Нет, эти данные недоступны участникам.
Q: Сколько данных в тесте?
A: В public и private содержится приблизительно по 3000 уникальных id. При этом public и private считаются раздельно, и следовательно ограничение по ресурсам и времени распространяется на раздельный подсчет public и private.
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy