Ends in 6 weeks
206 participants
400 submissions

Data Fusion Contest 2025 - Задача 2 "4cast"

Участникам необходимо решить задачу прогнозирования временных рядов для клиентов банка (юридических лиц) на основе их профилей и истории транзакций.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2025.

Постановка задачи

Необходимо решить задачу прогнозирования динамики денежных переводов клиентов банка. В роли временного ряда, который требуется прогнозировать, выступают переводы со счетов юридических лиц клиентов банка — другим юридическим лицам, агрегированные суммарно по неделям. Для обучения прогнозных моделей предоставляются транзакции за 2 года (106 недель, с 0 по 105 включительно), а горизонт прогнозирования — следующие 12 недель (с 106 по 117 включительно).

В данной задаче предстоит работать с данными юридических лиц: их транзакциями за 2 года, а также предоставленной информацией из профилей юридических лиц. У задачи имеется ряд весьма интересных особенностей для исследователей и практиков анализа данных:

  • Юридические лица очень часто имеют счета сразу во многих банках. В данных задачи предоставлены транзакции юридических лиц по их уникальному ИНН, как от лица их счета в банке, так и выступающих в качестве контрагентов транзакций с другими клиентами банка. 
  • Транзакции между юридическими лицами отличаются от уже привычных для соревнований данных транзакций физических лиц. В них отсутствуют привычные MCC коды, но есть много другой информации, с которой можно работать.
  • Данных для решения задачи предоставлено рекордное количество — более 200 миллионов транзакций. Осторожнее обращайтесь с памятью своих систем! 🤗️️ 

Для удобства работы с данными предоставляется глобальный календарь непрерывно идущих недель. Подробнее про структуру и особенности данных можно узнать на странице “Данные

Задачи по прогнозированию повсеместно встречаются в рабочей практике компаний всех индустрий. На основании прогнозных моделей можно принимать самые различные решения для бизнеса, как на уровне конкретных клиентов, так и на уровне стратегии действий компании. Само прогнозирование имеет богатую историю подходов, моделей, научных школ и методологий, попробовать которые можно в рамках соревнования. 

Формат решений

Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с тремя столбцами:

inn_id, week, predict
inn1000051, 106, 7430786
inn1000051, 107, 7430786
...
inn999886, 117, 19776084
  • inn_id – идентификатор юридических лиц, клиентов банка;
  • week – номер недели (периода прогнозирования), на которую сделан прогноз;
  • predict – предсказание вашего алгоритма. 

Предсказания необходимо построить для всех 51,963 клиентов на все 12 недель (периодов прогнозирования) тестовых данных. 

Примеры sample_submission.csv доступны на странице “Данные”.

Проверка решений

Решения проверяются автоматически путем сопоставления с известными истинными историческими значениями суммарных переводов клиентов банка со своих счетов. Истинные исторические значения в тестовых данных доступны только организаторам.

Метрика соревнования — средний RMSLE (Root Mean Squared Logarithmic Error) по клиентам:

$$\overline{RMSLE} = \frac{1}{N} \sum_{i=1}^N \text{RMSLE}_i$$

$$RMSLE_{i} = \sqrt{\frac{1}{T} \sum_{t=1}^T (\log(1 + y_{it}) - \log(1 + \hat{\overline{y}}_{it} ))^2 }$$

$$\hat{\overline{y}}_{it} = max(0, \hat{y}_{it}) $$

$$\text{Где:}$$

$$N \text{ — число клиентов},$$

$$T \text{ — число периодов прогнозирования},$$

$$y_{it} \text{ — истинные значения временного ряда клиента i в период t},$$

$$\hat{y}_{it} \text{ — спрогнозированные значения временного ряда клиента i в период t}.$$

Соотношение public/private в соревновании составляет 4/8: 

  • Первые 4 тестовые недели (с 106 по 109 включительно) используются для результатов на public лидерборде. 
  • Остальные 8 недель (с 110 по 117 включительно) используются для результатов на private лидерборде.

Обратите внимание, что если в качестве прогноза предоставляются отрицательные значения, то они принудительно зануляются.

Победители соревнования определяются по результатам на private лидерборде. Для private лидерборда можно выбрать до 2 финальных решений.

 

Информация для участников

  • В соревновании можно принимать участие из любой точки мира. Участники могут объединяться в команды до 4-х человек. Участвовать можно в любом количестве из предложенных задач и номинаций. Победители соревнования смогут получить денежные призы только на расчетные счета банков, зарегистрированных на территории Российской Федерации.  Просим вас позаботиться об открытии счета в РФ заранее.
  • Ответы на вопросы по всему Data Fusion Contest 2025 доступны на FAQ странице трека.

Призовой фонд задачи 2, 4cast

1 место: 600 000 рублей
2 место: 250 000 рублей
3 место: 100 000 рублей

Спецноминация Companion: 

1 место — 50 000 рублей
2 место — мерч

Cookies help us deliver our services. By using our services, you agree to our use of cookies.