Ends in 6 weeks
209 participants
428 submissions

Данные

Для решения задачи “4cast” предлагается несколько групп данных и материалов:

  1. Основные материалы
    1. Целевые временные ряды (target_series.parquet)
    2. Календарь (calendar.csv)
    3. Пример базового решения (sample_submit.csv)
  2. Данные транзакций
    1. Основные данные транзакций (transactions_i.parquet)
    2. Дополнительные данные транзакций (transactions_extra_i.parquet)
  3. Данные профилей (profiles.parquet)

Целевые временные ряды (target_series.parquet)

Для удобства участников предоставляются заранее посчитанные исторические данные временных рядов клиентов:

  • inn_id – ИНН клиента банка 
  • week — глобальный номер недели
  • target – значения временного ряда

Целевая переменная с временным рядом по каждому клиенту несет следующий смысл:

Сумма всех внешних переводов inn_id клиента ВТБ …

… со своих счетов в ВТБ … 

… за неделю week

 

Воспроизвести target на основе транзакций (далее на странице) для выбранного клиента inn_id на конкретнную неделю week можно следующим образом:

  • Берутся транзакции из соответствующего неделям файла transaction_i.parquet (i от 1 до 4)
  • Даты транзакций date должны относиться к датам из соответствующей глобальной недели week из файла с календарем calendar.csv. Для этого стоит смерджить данные транзакций с файлом calendar.csv по полю date
  • doc_payer_inn из файла с транзакциями должен соответствовать выбранному inn_id 
  • Нужно оставить только транзакции со счетов этого клиента ВТБ, то есть doc_payer_bank_name_flag == 1
  • Считается сумма по trns_amount для выбранных транзакций 

Календарь (calendar.csv)

Сопроводительный файл 

  • date – дата (с “2022-07-25” по "2024-10-27)
  • week — глобальный номер недели (с 0 по 117)
  • part – напоминание к какой части данных относится дата (train, public, private)

В целях удобства подсчета недель (особенно в ситуациях начала нового года), недели организованы в виде глобальной последовательности. Глобальные недели считаются по полным неделям с понедельника по воскресенье.

Базовые решения (sample_submit.csv)

Пример корректного базового решения, состоящего из 3 столбцов:

  • inn_id – ИНН клиента банка 
  • week — глобальный номер недели
  • predict – предсказанные значения для временного ряда

Данные транзакций (transactions_i.parquet)

Основная информация о транзакциях между юридическими лицами:

  • date – Дата транзакции
  • doc_payer_inn — ИНН клиента отправителя (от кого транзакция)
  • doc_payee_inn – ИНН клиента получателя (кому транзакция)
  • trns_count – Количество транзакций (между отправителем и получателем)
  • trns_amount – Сумма транзакции/транзакций 
  • doc_payer_bank_name_encoded – Идентификатор банка отправителя
  • doc_payee_bank_name_encoded – Идентификатор банка получателя
  • doc_payer_bank_name_flag – Флаг наличия подстроки ВТБ в названии банка отправителя
  • doc_payee_bank_name_flag – Флаг наличия подстроки ВТБ в названии банка получателя
  • trns_class_encoded – Класс транзакции (размеченный с помощью модели)

Дополнительные данные транзакций (transactions_extra_i.parquet)

Вспомогательная информация транзакций, полезная для более глубокого анализа:

  • date – Дата транзакции
  • doc_payer_inn — ИНН клиента отправителя (от кого транзакция)
  • doc_payee_inn – ИНН клиента получателя (кому транзакция)
  • doc_payer_acc_num_encoded – Номер счета отправителя, срез 1:5
  • doc_payee_acc_num_encoded – Номер счета получателя, срез 1:5
  • db_acc_num_encoded – Номер счета по дебету проводки, срез 1:5
  • cr_acc_num_encoded – Номер счета по кредиту проводки, срез 1:5
  • doc_payer_acc_num_bal_encoded – Номер счета отправителя, срез 1:3
  • doc_payee_acc_num_bal_encoded – Номер счета получателя, срез 1:3
  • db_acc_num_bal_encoded – Номер счета по дебету проводки, срез 1:3
  • cr_acc_num_bal_encoded – Номер счета по кредиту проводки, срез 1:3

Данные профилей компаний (profiles.parquet)

Основная информация о транзакциях между юридическими лицами:

  • inn_id – ИНН клиента
  • report_date — Отчетная дата
  • ipul – Флаг ИП/ЮЛ
  • id_region – Регион
  • main_okved_group – Первые две цифры ОКВЭД
  • diff_datopen_report_date_flg – Бакет разницы между датой регистрации и отчетной датой

Cookies help us deliver our services. By using our services, you agree to our use of cookies.