Ends in 7 weeks
154 participants
70 submissions

Data Fusion Contest 2026 - Задача 1 "Страж"

Участникам необходимо решить задачу классификации неподтвержденных операций клиентов банка на основе данных историй операций в различных каналах.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2026.

Постановка задачи

Необходимо решить задачу классификации для операций, которые по различным причинам, связанных с безопасностью, были не подтверждены клиентами банка. То есть, участникам предстоит разработать алгоритм реализующий ядро системы антифрода для предотвращения мошеннических операций. 

Для обучения моделей предоставляются операции 100,000 клиентов за 1.5 года, организованные по времени на 4 отдельные периода:

  1. Pre-train, с 2023-10-01 по 2024-09-30. История операций клиентов, которую можно использовать для предобучения и извлечения признаков. Не имеет разметки по построению.
  2. Train, с 2024-10-01 по 2025-05-31. История операций клиентов, в которой у них появляются нежелательные операции. Имеет разметку как неподтвержденных операций (🔴 целевой класс, “красный свет”), так и подозрительных операций, подтвержденных клиентами (🟡 "желтый свет", не является целевым классом). Все остальные операции без обратной связи клиента стоит считать подтвержденными (🟢 "зеленый свет").
  3. Pre-test, с 2025-06-01 по 2025-08-09. История операций клиентов, которую можно использовать для классификации самих тестовых меток. Не имеет разметки, так как является частью тестовых данных.
  4. Test, с 2025-06-01 по 2025-08-09. Заключительный день истории операций клиентов, каждую из которых требуется классифицировать и отправить в рамках соревнования. У каждого клиента этот заключительный день выбран случайно. 

У задачи имеется ряд особенностей для исследователей и практиков анализа данных:

  • Целевой класс очень редкий: в тренировочных данных всего 51 тысяча неподтвержденных операций (🔴) и 36 тысяч подтвержденных (🟡). 
  • Алгоритм должен работать в приближенной к реальной постановке, с учетом времени. Как если бы классификатор работал здесь и сейчас, а не размечал уже ранее случившиеся инциденты пост-фактум. 
  • Суммарный объем данных в задаче превышает 200 миллионов операций. Подробнее про структуру данных можно узнать на странице “Данные”.

Формат решений

Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с двумя столбцами:

event_id, predict
125854726334416, -0.338988
125949211749418, -4.100378
...
124738035029214, 0.004335
  • event_id – идентификатор операции;
  • predict – предсказание вашего алгоритма. 

Предсказания необходимо построить для всех 633,683 операций тестовых данных. 

Пример sample_submit.csv доступен на странице “Данные”.

Проверка решений

Решения проверяются автоматически путем сопоставления с известной истинной разметкой статусов операций по классу неподтвержденных операций (🔴) в тестовый период данных. Истинная разметка тестовых данных доступна только организаторам.

Метрика соревнования — PR-AUC (Area Under Precision-Recall Curve; площадь под кривой «полнота-точность») по операциям. 

Для расчета метрики используется её sklearn имплементация

from sklearn.metrics import average_precision_score

Обратите внимание, что использование функции auc для самой Precision-Recall кривой средствами sklearn приведет к завышению показателей метрики ввиду особенностей процедуры подсчета (интерполяции точек кривой). 

Тестовые данные представляют собой 70 дней операций, сгруппированные в 10 недель. 
Отсчет идет с 2025-06-01 по 2025-08-09, первая неделя идет с 2025-06-01 по 2025-06-07, и т.д.  

Соотношение public/private в соревновании составляет 30/70 и разделено по времени (по неделям): 

  • Недели 1, 3 и 5 используются для результатов на public лидерборде. 
  • Остальные 7 недель используются для результатов на private лидерборде.

Победители соревнования определяются по результатам на private лидерборде. 
Для private лидерборда можно выбрать до 2-ух финальных решений.

Информация для участников

  • В соревновании можно принимать участие из любой точки мира. Участники могут объединяться в команды до 4-х человек. Участвовать можно в любом количестве из предложенных задач и номинаций. Победители соревнования смогут получить денежные призы только на расчетные счета банков, зарегистрированных на территории Российской Федерации.  Просим вас позаботиться об открытии счета в РФ заранее.
  • Ответы на вопросы по всему Data Fusion Contest 2026 доступны на FAQ странице трека.

Призовой фонд задачи 1, “Страж”

1 место: 1 000 000 рублей
2 место: 500 000 рублей
3 место: 300 000 рублей

Спецноминация Companion: 

1 место — 50 000 рублей
2 место — 50 000 рублей

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy