Разминочная задача: решите Matching задачу в случае, когда все кандидаты в паре заранее известны, но сами пары не предоставлены. Простор для пост-обработки, схожей с составлением паззла.
Matchingrankingtransactionsclickstreampuzzledatafusion
Необходимо решить упрощенную Matching задачу соотнесения клиентов в формате классического табличного соревнования. А именно, используя общие для всех задач Data Fusion Contest 2022 данные транзакций и кликстримов, необходимо построить алгоритм, решающий задачу в ситуации, когда все кандидаты в паре заранее известны, но сами пары не предоставлены.
Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2022.
Для решения Matching задачи во вкладке данные участникам доступны несколько наборов данных:
.csv
формате: transactions.zip
, clicstream.zip
и целевая переменная train_matching.csv
.csv
формате: mcc_codes.csv
, click_categories.csv
и currency_rk.csv
puzzle.csv.
Все клиенты из этого файла присутствуют в данных выше, но для них неизвестны истиные пары. Однако, известно, что для всех клиентов в этом файле точно имеется пара.Ссылки на скачивание данных доступны во вкладке Данные для присоединившихся к соревнованию участников.
R1
, среднее гармоническое между Precision@100
и MRR@100
. В лидерборде также отражаются составляющие для R1
метрики, но именно R1
является основной метрикой соревнования.1 место: 150 000 рублей
2 место: 100 000 рублей
3 место: 50 000 рублей
Q: Можете сказать, откуда собираются данные в clickstream.csv?
A: В файле clickstream.csv трафик интернет-провайдера со всех сайтов, категоризованный по тематикам (интересам). Например, просмотр видео на Ютубе про мебель категоризуется в тематику "мебель". Аналогично с остальными сайтами: категоризуется не сам домен, а тематика конкретной страницы.
Q: В задаче Puzzle можно использовать модель или данные с главной задачи? А наоборот?
A: Да, вы можете использовать и модели и данные из разных задач на свое усмотрение.
Q: Я отправил сабмишн, получил статус “Failed”, но нет ссылки на текст ошибки. Что делать?
A: Скорее всего, в ваших предсказаниях представлены не все id, которые встречаются в списке id из файла transactions.csv в тесте. Это могло произойти, например, из-за фильтрации данных.
Q: Можно ли учитывать ограничение решение по времени (60 минут) только в части применения модели и не учитывать трансформацию данных?
A: Нет. Условия задачи подразумевают получить матч за 60 минут для входных потоков транзакций и кликстрима.
Q: Есть ли возможность посмотреть transactions.csv и clickstream.csv представленных в тесте? Эти ID присутствуют в данных для обучения?
A: Нет, эти данные недоступны участникам.
Q: Сколько данных в тесте?
A: В public и private содержится приблизительно по 3000 уникальных id. При этом public и private считаются раздельно, и следовательно ограничение по ресурсам и времени распространяется на раздельный подсчет public и private.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.