Решите Matching задачу: по данным транзакций и кликстрима, требуется сперва построить обезличенные вектора. Затем для каждого клиента ВТБ нужно сопоставить вектора и отранжировать клиентов "Ростелекома" по вероятности их совпадения.
Matchingrankingcontainerdatafusion
Необходимо решить Matching задачу соотнесения клиентов в формате контейнеров с кодом. А именно, используя данные транзакций и кликстримов, сперва построить предрассчитанные вектора. Затем для каждого клиента ВТБ требуется сопоставить полученные вектора и отранжировать клиентов “Ростелекома” по наибольшей вероятности их совпадения.
Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2022.
Для решения Matching задачи во вкладке данные участникам доступны несколько наборов данных:
.csv
формате: transactions.zip
, clicstream.zip
и целевая переменная train_matching.csv
.csv
формате: mcc_codes.csv
, click_categories.csv
и currency_rk.csv
sample_submission.zip
и baseline_catboost.zip
с примером решения на библиотеке catboost с использованием GPUСсылки на скачивание данных доступны во вкладке Данные для присоединившихся к соревнованию участников.
R1
. Аналогично метрике F1, это среднее гармоническое между Precision@100
и MRR@100
. В лидерборде также отражаются составляющие для R1
метрики, но именно R1
является основной метрикой соревнования.rtk_id=0
. Этот специальный случай отсутствия пары также необходимо учитывать в разработке решений для Matching задачи.Для отладки решений можно также решать упрощенную задачу Puzzle, которая реализована в классическом табличном формате проверки.
1 место: 500 000 рублей
2 место: 300 000 рублей
3 место: 200 000 рублей
4 и 5 место: 100 000 рублей
с 6 по 10 место: 50 000 рублей
Q: Можете сказать, откуда собираются данные в clickstream.csv?
A: В файле clickstream.csv трафик интернет-провайдера со всех сайтов, категоризованный по тематикам (интересам). Например, просмотр видео на Ютубе про мебель категоризуется в тематику "мебель". Аналогично с остальными сайтами: категоризуется не сам домен, а тематика конкретной страницы.
Q: В задаче Puzzle можно использовать модель или данные с главной задачи? А наоборот?
A: Да, вы можете использовать и модели и данные из разных задач на свое усмотрение.
Q: Я отправил сабмишн, получил статус “Failed”, но нет ссылки на текст ошибки. Что делать?
A: Скорее всего, в ваших предсказаниях представлены не все id, которые встречаются в списке id из файла transactions.csv в тесте. Это могло произойти, например, из-за фильтрации данных.
Q: Можно ли учитывать ограничение решение по времени (60 минут) только в части применения модели и не учитывать трансформацию данных?
A: Нет. Условия задачи подразумевают получить матч за 60 минут для входных потоков транзакций и кликстрима.
Q: Есть ли возможность посмотреть transactions.csv и clickstream.csv представленных в тесте? Эти ID присутствуют в данных для обучения?
A: Нет, эти данные недоступны участникам.
Q: Сколько данных в тесте?
A: В public и private содержится приблизительно по 3000 уникальных id. При этом public и private считаются раздельно, и следовательно ограничение по ресурсам и времени распространяется на раздельный подсчет public и private.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.