Ended 3 months ago
578 participants
3324 submissions

Update! Обещанное спец.механиками “будущее” уже наступило 🔮

Данные

Для решения задачи “4cast” предлагается несколько групп данных и материалов:

  1. Основные материалы
    1. Целевые временные ряды (target_series.parquet)
    2. Календарь (calendar.csv)
    3. Пример базового решения (sample_submit.csv)
  2. Данные транзакций
    1. Основные данные транзакций (transactions_i.parquet)
    2. Дополнительные данные транзакций (transactions_extra_i.parquet)
  3. Данные профилей (profiles.parquet)

Целевые временные ряды (target_series.parquet и target_series_extended.parquet)

Для удобства участников предоставляются заранее посчитанные исторические данные временных рядов клиентов:

  • inn_id – ИНН клиента банка 
  • week — глобальный номер недели
  • target – значения временного ряда

Целевая переменная с временным рядом по каждому клиенту несет следующий смысл:

Сумма всех внешних переводов inn_id клиента ВТБ …

… со своих счетов в ВТБ … 

… за неделю week

Update: так как обещанное спец.механиками “будущее” уже наступило, у участников также теперь есть доступ к target_series_extended.parquet

Воспроизвести target на основе транзакций (далее на странице) для выбранного клиента inn_id на конкретнную неделю week можно следующим образом:

  • Берутся транзакции из соответствующего неделям файла transaction_i.parquet (i от 1 до 5)
  • Даты транзакций date должны относиться к датам из соответствующей глобальной недели week из файла с календарем calendar.csv. Для этого стоит смерджить данные транзакций с файлом calendar.csv по полю date
  • doc_payer_inn из файла с транзакциями должен соответствовать выбранному inn_id 
  • Нужно оставить только транзакции со счетов этого клиента ВТБ, то есть doc_payer_bank_name_flag == 1
  • Считается сумма по trns_amount для выбранных транзакций 

Календарь (calendar_extended.csv)

Сопроводительный файл 

  • date – дата (с “2022-07-25” по "2025-01-19)
  • week — глобальный номер недели (с 0 по 129)
  • part – напоминание к какой части данных относится дата (train, public, private; validation_public и validation_private это предыдущая версия календаря)

В целях удобства подсчета недель (особенно в ситуациях начала нового года), недели организованы в виде глобальной последовательности. Глобальные недели считаются по полным неделям с понедельника по воскресенье.

Базовые решения (sample_submit_extended.csv)

Пример корректного базового решения, состоящего из 3 столбцов:

  • inn_id – ИНН клиента банка 
  • week — глобальный номер недели
  • predict – предсказанные значения для временного ряда

Данные транзакций (transactions_i.parquet)

Основная информация о транзакциях между юридическими лицами:

  • date – Дата транзакции
  • doc_payer_inn — ИНН клиента отправителя (от кого транзакция)
  • doc_payee_inn – ИНН клиента получателя (кому транзакция)
  • trns_count – Количество транзакций (между отправителем и получателем)
  • trns_amount – Сумма транзакции/транзакций 
  • doc_payer_bank_name_encoded – Идентификатор банка отправителя
  • doc_payee_bank_name_encoded – Идентификатор банка получателя
  • doc_payer_bank_name_flag – Флаг наличия подстроки ВТБ в названии банка отправителя
  • doc_payee_bank_name_flag – Флаг наличия подстроки ВТБ в названии банка получателя
  • trns_class_encoded – Класс транзакции (размеченный с помощью модели)

Дополнительные данные транзакций (transactions_extra_i.parquet)

Вспомогательная информация транзакций, полезная для более глубокого анализа:

  • date – Дата транзакции
  • doc_payer_inn — ИНН клиента отправителя (от кого транзакция)
  • doc_payee_inn – ИНН клиента получателя (кому транзакция)
  • doc_payer_acc_num_encoded – Номер счета отправителя, срез 1:5
  • doc_payee_acc_num_encoded – Номер счета получателя, срез 1:5
  • db_acc_num_encoded – Номер счета по дебету проводки, срез 1:5
  • cr_acc_num_encoded – Номер счета по кредиту проводки, срез 1:5
  • doc_payer_acc_num_bal_encoded – Номер счета отправителя, срез 1:3
  • doc_payee_acc_num_bal_encoded – Номер счета получателя, срез 1:3
  • db_acc_num_bal_encoded – Номер счета по дебету проводки, срез 1:3
  • cr_acc_num_bal_encoded – Номер счета по кредиту проводки, срез 1:3

Данные профилей компаний (profiles_extended.parquet)

Основная информация о транзакциях между юридическими лицами:

  • inn_id – ИНН клиента
  • report_date — Отчетная дата
  • ipul – Флаг ИП/ЮЛ
  • id_region – Регион
  • main_okved_group – Первые две цифры ОКВЭД
  • diff_datopen_report_date_flg – Бакет разницы между датой регистрации и отчетной датой

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy