Ends in 7 weeks
129 participants
62 submissions

Data Fusion Contest 2026 - Задача 2 "Киберполка"

Участникам необходимо решить задачу multi-label классификации для 41 финансового продукта клиентов банка на основе обезличенных данных заранее предоставленных признаков.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2026.

Постановка задачи

Клиенты банка владеют разными банковскими продуктами — различными видами счетов, карт и услуг. Одним из запросов бизнеса является желание ранжировать эти продукты по вероятности их открытия клиентами.

В данной задаче продуктов “на полке” 41 штука. В отличие от классических задач рекомендаций, бизнес интересуют вероятности открытия каждого из продуктов. Умея хорошо предсказывать эти вероятности, бизнес имел бы возможность гибко настраивать рекомендации.

В этом соревновании участникам предстоит работать с полностью анонимными и обфусцированными данными 1,000,0000 клиентов:

  • Описания банковских продуктов не передаются. Также не передаются и описания признаков. Для признаков передается только информация об их исходном типе (категорийные признаки cat_feature_i и числовые признаки num_feature_j). 
  • Признаков достаточно много: основной набор в 200 признаков, а также дополнительный набор с более 2,000 признаками.
  • В признаках много пропущенных значений, а также присутствуют выбросы.
  • 750,000 клиентов имеют разметку и составляют тренировочные данные. Оставшиеся 250,000 клиентов составляют тестовые данные.

Подробнее про структуру данных можно узнать на странице “Данные”.

Формат решений

Это соревнование с разметкой предоставленного вам .parquet файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый .parquet файл с 42 столбцами:

customer_id, predict_1_1, predict_1_2, ... , predict_10_1
1750000, -4.921889, -5.700829, ... , -0.954659
1750001, -4.963202, -6.826517, ... , -0.622011
...
1999999, -4.249957, -4.785856, ... , -0.931220
  • customer_id – идентификатор клиента;
  • predict_i – предсказание вашего алгоритма для класса target_i. Например predict_1_1 для target_1_1 и т.д. 

Предсказания необходимо построить для всех 250,000 клиентов в тестовых данных. 

Пример sample_submit.parquet доступен на странице “Данные”.

Проверка решений

Решения проверяются автоматически путем сопоставления с известными истинными историческими значениями суммарных переводов клиентов банка со своих счетов. Истинные исторические значения в тестовых данных доступны только организаторам.

Метрика соревнования — Macro Averaged ROC-AUC. Для multi-label это эквивалентно простому усреднению ROC-AUC по каждому классу. 

Для расчета метрики используется sklearn имплементация

from sklearn.metrics import roc_auc_score

roc_auc_score(y_true, y_pred, average="macro")

Соотношение public/private в соревновании составляет 30/70: 

  • 75,000 (30%) клиентских записей используются для результатов на public лидерборде.  
  • 175,000 (70%) клиентских записей  используются для результатов на private лидерборде.

Победители соревнования определяются по результатам на private лидерборде. 
Для private лидерборда можно выбрать до 2 финальных решений.

Информация для участников

  • В соревновании можно принимать участие из любой точки мира. Участники могут объединяться в команды до 4-х человек. Участвовать можно в любом количестве из предложенных задач и номинаций. Победители соревнования смогут получить денежные призы только на расчетные счета банков, зарегистрированных на территории Российской Федерации.  Просим вас позаботиться об открытии счета в РФ заранее.
  • Ответы на вопросы по всему Data Fusion Contest 2026 доступны на FAQ странице трека.

Призовой фонд задачи 2, “Киберполка”

1 место: 500 000 рублей
2 место: 300 000 рублей
3 место: 100 000 рублей

Спецноминация Companion: 

1 место — 50 000 рублей
2 место — 50 000 рублей

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy