Ended 2 months ago
578 participants
3324 submissions

Data Fusion Contest 2025 - Задача 2 "4cast"

Участникам необходимо решить задачу прогнозирования временных рядов для клиентов банка (юридических лиц) на основе их профилей и истории транзакций.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2025.

Постановка задачи

Необходимо решить задачу прогнозирования динамики денежных переводов клиентов банка. В роли временного ряда, который требуется прогнозировать, выступают переводы со счетов юридических лиц клиентов банка — другим юридическим лицам, агрегированные суммарно по неделям. Для обучения прогнозных моделей предоставляются транзакции за 2 года (118 недель, с 0 по 117 включительно), а горизонт прогнозирования — следующие 12 недель (с 118 по 129 включительно).

В данной задаче предстоит работать с данными юридических лиц: их транзакциями за 2 года, а также предоставленной информацией из профилей юридических лиц. У задачи имеется ряд весьма интересных особенностей для исследователей и практиков анализа данных:

  • Юридические лица очень часто имеют счета сразу во многих банках. В данных задачи предоставлены транзакции юридических лиц по их уникальному ИНН, как от лица их счета в банке, так и выступающих в качестве контрагентов транзакций с другими клиентами банка. 
  • Транзакции между юридическими лицами отличаются от уже привычных для соревнований данных транзакций физических лиц. В них отсутствуют привычные MCC коды, но есть много другой информации, с которой можно работать.
  • Данных для решения задачи предоставлено рекордное количество — более 250 миллионов транзакций. Осторожнее обращайтесь с памятью своих систем! 🤗️️ 

Для удобства работы с данными предоставляется глобальный календарь непрерывно идущих недель. Подробнее про структуру и особенности данных можно узнать на странице “Данные

Задачи по прогнозированию повсеместно встречаются в рабочей практике компаний всех индустрий. На основании прогнозных моделей можно принимать самые различные решения для бизнеса, как на уровне конкретных клиентов, так и на уровне стратегии действий компании. Само прогнозирование имеет богатую историю подходов, моделей, научных школ и методологий, попробовать которые можно в рамках соревнования. 

Формат решений

Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с тремя столбцами:

inn_id, week, predict
inn1000051, 118, 7430786
inn1000051, 119, 7430786
...
inn999886, 129, 19776084
  • inn_id – идентификатор юридических лиц, клиентов банка;
  • week – номер недели (периода прогнозирования), на которую сделан прогноз;
  • predict – предсказание вашего алгоритма. 

Предсказания необходимо построить для всех 51,963 клиентов на все 12 недель (периодов прогнозирования) тестовых данных. 

Примеры sample_submission.csv доступны на странице “Данные”.

Проверка решений

Решения проверяются автоматически путем сопоставления с известными истинными историческими значениями суммарных переводов клиентов банка со своих счетов. Истинные исторические значения в тестовых данных доступны только организаторам.

Метрика соревнования — средний RMSLE (Root Mean Squared Logarithmic Error) по клиентам:

$$\overline{RMSLE} = \frac{1}{N} \sum_{i=1}^N \text{RMSLE}_i$$

$$RMSLE_{i} = \sqrt{\frac{1}{T} \sum_{t=1}^T (\log(1 + y_{it}) - \log(1 + \hat{\overline{y}}_{it} ))^2 }$$

$$\hat{\overline{y}}_{it} = max(0, \hat{y}_{it}) $$

$$\text{Где:}$$

$$N \text{ — число клиентов},$$

$$T \text{ — число периодов прогнозирования},$$

$$y_{it} \text{ — истинные значения временного ряда клиента i в период t},$$

$$\hat{y}_{it} \text{ — спрогнозированные значения временного ряда клиента i в период t}.$$

Соотношение public/private в соревновании составляет 4/8: 

  • Первые 4 тестовые недели (с 118 по 121 включительно) используются для результатов на public лидерборде. 
  • Остальные 8 недель (с 122 по 129 включительно) используются для результатов на private лидерборде.

Обратите внимание, что если в качестве прогноза предоставляются отрицательные значения, то они принудительно зануляются.

Победители соревнования определяются по результатам на private лидерборде. Для private лидерборда можно выбрать до 2 финальных решений.

 

Информация для участников

  • В соревновании можно принимать участие из любой точки мира. Участники могут объединяться в команды до 4-х человек. Участвовать можно в любом количестве из предложенных задач и номинаций. Победители соревнования смогут получить денежные призы только на расчетные счета банков, зарегистрированных на территории Российской Федерации.  Просим вас позаботиться об открытии счета в РФ заранее.
  • Ответы на вопросы по всему Data Fusion Contest 2025 доступны на FAQ странице трека.

Призовой фонд задачи 2, 4cast

1 место: 600 000 рублей
2 место: 250 000 рублей
3 место: 100 000 рублей

Спецноминация Companion: 

1 место — 50 000 рублей
2 место — мерч

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy