Ends in 6 weeks
89 participants
127 submissions

Data Fusion Contest 2025 - Задача 3 "Distribution"

Образовательная задача для тех, кто хочет научиться лучше разбираться с моделями машинного обучения на банковских данных: создайте алгоритм, способный предсказывать распределение остатков на счетах клиента через 2 месяца.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2025.

Постановка задачи

Это соревнование отлично подойдёт тем, кто хочет попрактиковаться в умении применять алгоритмы машинного обучения к реальным задачам. Для участников уже заранее подготовлены наборы данных с почти 5,000 признаков и одной целевой переменной:

50 перцентиль распределения суммарных остатков на всех накопительных счетах клиента на горизонте +2 мес. от отчетной даты

Это реальная интересующая банк характеристика клиента, которую участникам предлагается научиться предсказывать.

Вроде бы все просто, но у задачи есть несколько важных особенностей:

  • Целевая переменная представляет собой информацию о будущем, что потребует не мало работы по настройке валидации;
  • Тренировочные и тестовые данные также разделены на основе времени: тестовые данные собраны за другой временной период;
  • Признаков много, в них много пропущенных значений, и сами признаки имеют очень разные распределения.

Подобная учебная задача, может выступить полезной тренажерной площадкой: 

  • Простота постановки открывает простор для самых разных алгоритмов и подходов моделирования; 
  • Необходимость разобраться в валидации при честном разделении данных по времени — критически важный навык при решении реальных задач.

Формат решений

Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с двумя столбцами:

user_id, predict
1000008, 91.733
1000009, 208899
...
2499992, 1076658
  • user_id – идентификатор клиента банка;
  • predict – предсказание вашего алгоритма. 

Предсказания необходимо построить для всех 318,451 клиентов в тестовых данных. 

Примеры sample_submission.csv доступны на странице “Данные”.

Проверка решений

Решения проверяются автоматически путем сопоставления с известными истинными значениями целевой переменной клиентов банка. Истинные значения целевой переменной в тестовых данных доступны только организаторам.

Метрика соревнования — RMSLE (Root Mean Squared Logarithmic Error):

$$RMSLE = \sqrt{\frac{1}{N} \sum_{i=1}^N (\log(1 + y_{i}) - \log(1 + \hat{\overline{y}}_{i} ))^2 }$$

$$\hat{\overline{y}}_{i} = max(0, \hat{y}_{i}) $$

$$\text{Где:}$$

$$N \text{ — число клиентов},$$

$$y_{i} \text{ — истинные значения целевой переменной клиента i},$$

$$\hat{y}_{i} \text{ — предсказанные значения для клиента i}.$$

Соотношение public/private в соревновании составляет 33/67: 

  • Треть клиентов используется для результатов на public лидерборде. 
  • Оставшиеся две трети используются для результатов на private лидерборде.

Обратите внимание, что если в качестве предсказаний предоставляются отрицательные значения, то они принудительно зануляются.

Итоговые результаты в образовательной задаче определяются по результатам на private лидерборде. 
Для private лидерборда можно выбрать до 2 финальных решений.

 

Информация для участников

  • В соревновании можно принимать участие из любой точки мира. Участники могут объединяться в команды до 4-х человек. Участвовать можно в любом количестве из предложенных задач и номинаций. 
  • Ответы на вопросы по всему Data Fusion Contest 2025 доступны на FAQ странице трека.

Призовой фонд задачи 3, Distribution

Это учебная задача без денежного призового фонда.

Спецноминация Companion

1 место — мерч
2 место — мерч

Cookies help us deliver our services. By using our services, you agree to our use of cookies.