Ended 2 months ago
355 participants
1398 submissions

Data Fusion Contest 2025 - Задача 3 "Distribution"

Образовательная задача для тех, кто хочет научиться лучше разбираться с моделями машинного обучения на банковских данных: создайте алгоритм, способный предсказывать распределение остатков на счетах клиента через 2 месяца.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2025.

Постановка задачи

Это соревнование отлично подойдёт тем, кто хочет попрактиковаться в умении применять алгоритмы машинного обучения к реальным задачам. Для участников уже заранее подготовлены наборы данных с почти 5,000 признаков и одной целевой переменной:

50 перцентиль распределения суммарных остатков на всех накопительных счетах клиента на горизонте +2 мес. от отчетной даты

Это реальная интересующая банк характеристика клиента, которую участникам предлагается научиться предсказывать.

Вроде бы все просто, но у задачи есть несколько важных особенностей:

  • Целевая переменная представляет собой информацию о будущем, что потребует не мало работы по настройке валидации;
  • Тренировочные и тестовые данные также разделены на основе времени: тестовые данные собраны за другой временной период;
  • Признаков много, в них много пропущенных значений, и сами признаки имеют очень разные распределения.

Подобная учебная задача, может выступить полезной тренажерной площадкой: 

  • Простота постановки открывает простор для самых разных алгоритмов и подходов моделирования; 
  • Необходимость разобраться в валидации при честном разделении данных по времени — критически важный навык при решении реальных задач.

Формат решений

Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с двумя столбцами:

user_id, predict
1000008, 91.733
1000009, 208899
...
2499992, 1076658
  • user_id – идентификатор клиента банка;
  • predict – предсказание вашего алгоритма. 

Предсказания необходимо построить для всех 318,451 клиентов в тестовых данных. 

Примеры sample_submission.csv доступны на странице “Данные”.

Проверка решений

Решения проверяются автоматически путем сопоставления с известными истинными значениями целевой переменной клиентов банка. Истинные значения целевой переменной в тестовых данных доступны только организаторам.

Метрика соревнования — RMSLE (Root Mean Squared Logarithmic Error):

$$RMSLE = \sqrt{\frac{1}{N} \sum_{i=1}^N (\log(1 + y_{i}) - \log(1 + \hat{\overline{y}}_{i} ))^2 }$$

$$\hat{\overline{y}}_{i} = max(0, \hat{y}_{i}) $$

$$\text{Где:}$$

$$N \text{ — число клиентов},$$

$$y_{i} \text{ — истинные значения целевой переменной клиента i},$$

$$\hat{y}_{i} \text{ — предсказанные значения для клиента i}.$$

Соотношение public/private в соревновании составляет 33/67: 

  • Треть клиентов используется для результатов на public лидерборде. 
  • Оставшиеся две трети используются для результатов на private лидерборде.

Обратите внимание, что если в качестве предсказаний предоставляются отрицательные значения, то они принудительно зануляются.

Итоговые результаты в образовательной задаче определяются по результатам на private лидерборде. 
Для private лидерборда можно выбрать до 2 финальных решений.

 

Информация для участников

  • В соревновании можно принимать участие из любой точки мира. Участники могут объединяться в команды до 4-х человек. Участвовать можно в любом количестве из предложенных задач и номинаций. 
  • Ответы на вопросы по всему Data Fusion Contest 2025 доступны на FAQ странице трека.

Призовой фонд задачи 3, Distribution

Это учебная задача без денежного призового фонда.

Спецноминация Companion

1 место — мерч
2 место — мерч

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy