Участникам необходимо решить задачу классификации неподтвержденных операций клиентов банка на основе данных историй операций в различных каналах.
Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2026.
Необходимо решить задачу классификации для операций, которые по различным причинам, связанных с безопасностью, были не подтверждены клиентами банка. То есть, участникам предстоит разработать алгоритм реализующий ядро системы антифрода для предотвращения мошеннических операций.
Для обучения моделей предоставляются операции 100,000 клиентов за 1.5 года, организованные по времени на 4 отдельные периода:
2023-10-01 по 2024-09-30. История операций клиентов, которую можно использовать для предобучения и извлечения признаков. Не имеет разметки по построению.2024-10-01 по 2025-05-31. История операций клиентов, в которой у них появляются нежелательные операции. Имеет разметку как неподтвержденных операций (🔴 целевой класс, “красный свет”), так и подозрительных операций, подтвержденных клиентами (🟡 "желтый свет", не является целевым классом). Все остальные операции без обратной связи клиента стоит считать подтвержденными (🟢 "зеленый свет").2025-06-01 по 2025-08-09. История операций клиентов, которую можно использовать для классификации самих тестовых меток. Не имеет разметки, так как является частью тестовых данных.2025-06-01 по 2025-08-09. Заключительный день истории операций клиентов, каждую из которых требуется классифицировать и отправить в рамках соревнования. У каждого клиента этот заключительный день выбран случайно. 
У задачи имеется ряд особенностей для исследователей и практиков анализа данных:
Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с двумя столбцами:
event_id, predict
125854726334416, -0.338988
125949211749418, -4.100378
...
124738035029214, 0.004335event_id – идентификатор операции;predict – предсказание вашего алгоритма. Предсказания необходимо построить для всех 633,683 операций тестовых данных.
Пример sample_submit.csv доступен на странице “Данные”.
Решения проверяются автоматически путем сопоставления с известной истинной разметкой статусов операций по классу неподтвержденных операций (🔴) в тестовый период данных. Истинная разметка тестовых данных доступна только организаторам.
Метрика соревнования — PR-AUC (Area Under Precision-Recall Curve; площадь под кривой «полнота-точность») по операциям.
Для расчета метрики используется её sklearn имплементация:
from sklearn.metrics import average_precision_scoreОбратите внимание, что использование функции auc для самой Precision-Recall кривой средствами sklearn приведет к завышению показателей метрики ввиду особенностей процедуры подсчета (интерполяции точек кривой).
Тестовые данные представляют собой 70 дней операций, сгруппированные в 10 недель.
Отсчет идет с 2025-06-01 по 2025-08-09, первая неделя идет с 2025-06-01 по 2025-06-07, и т.д.
Соотношение public/private в соревновании составляет 30/70 и разделено по времени (по неделям):
Победители соревнования определяются по результатам на private лидерборде.
Для private лидерборда можно выбрать до 2-ух финальных решений.
1 место: 1 000 000 рублей
2 место: 500 000 рублей
3 место: 300 000 рублей
Спецноминация Companion:
1 место — 50 000 рублей
2 место — 50 000 рублей
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy