Разминочная задача: решите Matching задачу в случае, когда все кандидаты в паре заранее известны, но сами пары не предоставлены. Простор для пост-обработки, схожей с составлением паззла.
Matchingrankingtransactionsclickstreampuzzledatafusion
Необходимо решить упрощенную Matching задачу соотнесения клиентов в формате классического табличного соревнования. А именно, используя общие для всех задач Data Fusion Contest 2022 данные транзакций и кликстримов, необходимо построить алгоритм, решающий задачу в ситуации, когда все кандидаты в паре заранее известны, но сами пары не предоставлены.
Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2022.
Для решения Matching задачи во вкладке данные участникам доступны несколько наборов данных:
.csv
формате: transactions.zip
, clicstream.zip
и целевая переменная train_matching.csv
.csv
формате: mcc_codes.csv
, click_categories.csv
и currency_rk.csv
puzzle.csv.
Все клиенты из этого файла присутствуют в данных выше, но для них неизвестны истиные пары. Однако, известно, что для всех клиентов в этом файле точно имеется пара.Ссылки на скачивание данных доступны во вкладке Данные для присоединившихся к соревнованию участников.
R1
, среднее гармоническое между Precision@100
и MRR@100
. В лидерборде также отражаются составляющие для R1
метрики, но именно R1
является основной метрикой соревнования.1 место: 150 000 рублей
2 место: 100 000 рублей
3 место: 50 000 рублей
Q: Можете сказать, откуда собираются данные в clickstream.csv?
A: В файле clickstream.csv трафик интернет-провайдера со всех сайтов, категоризованный по тематикам (интересам). Например, просмотр видео на Ютубе про мебель категоризуется в тематику "мебель". Аналогично с остальными сайтами: категоризуется не сам домен, а тематика конкретной страницы.
Q: В задаче Puzzle можно использовать модель или данные с главной задачи? А наоборот?
A: Да, вы можете использовать и модели и данные из разных задач на свое усмотрение.
Q: Я отправил сабмишн, получил статус “Failed”, но нет ссылки на текст ошибки. Что делать?
A: Скорее всего, в ваших предсказаниях представлены не все id, которые встречаются в списке id из файла transactions.csv в тесте. Это могло произойти, например, из-за фильтрации данных.
Q: Можно ли учитывать ограничение решение по времени (60 минут) только в части применения модели и не учитывать трансформацию данных?
A: Нет. Условия задачи подразумевают получить матч за 60 минут для входных потоков транзакций и кликстрима.
Q: Есть ли возможность посмотреть transactions.csv и clickstream.csv представленных в тесте? Эти ID присутствуют в данных для обучения?
A: Нет, эти данные недоступны участникам.
Q: Сколько данных в тесте?
A: В public и private содержится приблизительно по 3000 уникальных id. При этом public и private считаются раздельно, и следовательно ограничение по ресурсам и времени распространяется на раздельный подсчет public и private.
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy