Образовательная задача для тех, кто хочет научиться лучше разбираться с моделями машинного обучения на банковских данных: создайте алгоритм, способный предсказывать распределение остатков на счетах клиента через 2 месяца.
Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2025.
Это соревнование отлично подойдёт тем, кто хочет попрактиковаться в умении применять алгоритмы машинного обучения к реальным задачам. Для участников уже заранее подготовлены наборы данных с почти 5,000 признаков и одной целевой переменной:
50 перцентиль распределения суммарных остатков на всех накопительных счетах клиента на горизонте +2 мес. от отчетной даты
Это реальная интересующая банк характеристика клиента, которую участникам предлагается научиться предсказывать.
Вроде бы все просто, но у задачи есть несколько важных особенностей:
Подобная учебная задача, может выступить полезной тренажерной площадкой:
Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с двумя столбцами:
user_id, predict
1000008, 91.733
1000009, 208899
...
2499992, 1076658
user_id
– идентификатор клиента банка;predict
– предсказание вашего алгоритма. Предсказания необходимо построить для всех 318,451 клиентов в тестовых данных.
Примеры sample_submission.csv доступны на странице “Данные”.
Решения проверяются автоматически путем сопоставления с известными истинными значениями целевой переменной клиентов банка. Истинные значения целевой переменной в тестовых данных доступны только организаторам.
Метрика соревнования — RMSLE (Root Mean Squared Logarithmic Error):
$$RMSLE = \sqrt{\frac{1}{N} \sum_{i=1}^N (\log(1 + y_{i}) - \log(1 + \hat{\overline{y}}_{i} ))^2 }$$
$$\hat{\overline{y}}_{i} = max(0, \hat{y}_{i}) $$
$$\text{Где:}$$
$$N \text{ — число клиентов},$$
$$y_{i} \text{ — истинные значения целевой переменной клиента i},$$
$$\hat{y}_{i} \text{ — предсказанные значения для клиента i}.$$
Соотношение public/private в соревновании составляет 33/67:
Обратите внимание, что если в качестве предсказаний предоставляются отрицательные значения, то они принудительно зануляются.
Итоговые результаты в образовательной задаче определяются по результатам на private лидерборде.
Для private лидерборда можно выбрать до 2 финальных решений.
Это учебная задача без денежного призового фонда.
Спецноминация Companion
1 место — мерч
2 место — мерч
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy