Образовательная задача для тех, кто хочет научиться лучше разбираться с моделями машинного обучения на банковских данных: создайте алгоритм, способный предсказывать распределение остатков на счетах клиента через 2 месяца.
Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2025.
Это соревнование отлично подойдёт тем, кто хочет попрактиковаться в умении применять алгоритмы машинного обучения к реальным задачам. Для участников уже заранее подготовлены наборы данных с почти 5,000 признаков и одной целевой переменной:
50 перцентиль распределения суммарных остатков на всех накопительных счетах клиента на горизонте +2 мес. от отчетной даты
Это реальная интересующая банк характеристика клиента, которую участникам предлагается научиться предсказывать.
Вроде бы все просто, но у задачи есть несколько важных особенностей:
Подобная учебная задача, может выступить полезной тренажерной площадкой:
Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с двумя столбцами:
user_id, predict
1000008, 91.733
1000009, 208899
...
2499992, 1076658
user_id
– идентификатор клиента банка;predict
– предсказание вашего алгоритма. Предсказания необходимо построить для всех 318,451 клиентов в тестовых данных.
Примеры sample_submission.csv доступны на странице “Данные”.
Решения проверяются автоматически путем сопоставления с известными истинными значениями целевой переменной клиентов банка. Истинные значения целевой переменной в тестовых данных доступны только организаторам.
Метрика соревнования — RMSLE (Root Mean Squared Logarithmic Error):
$$RMSLE = \sqrt{\frac{1}{N} \sum_{i=1}^N (\log(1 + y_{i}) - \log(1 + \hat{\overline{y}}_{i} ))^2 }$$
$$\hat{\overline{y}}_{i} = max(0, \hat{y}_{i}) $$
$$\text{Где:}$$
$$N \text{ — число клиентов},$$
$$y_{i} \text{ — истинные значения целевой переменной клиента i},$$
$$\hat{y}_{i} \text{ — предсказанные значения для клиента i}.$$
Соотношение public/private в соревновании составляет 33/67:
Обратите внимание, что если в качестве предсказаний предоставляются отрицательные значения, то они принудительно зануляются.
Итоговые результаты в образовательной задаче определяются по результатам на private лидерборде.
Для private лидерборда можно выбрать до 2 финальных решений.
Это учебная задача без денежного призового фонда.
Спецноминация Companion
1 место — мерч
2 место — мерч
Cookies help us deliver our services. By using our services, you agree to our use of cookies.