Для решения задачи “4cast” предлагается несколько групп данных и материалов:
Для удобства участников предоставляются заранее посчитанные исторические данные временных рядов клиентов:
inn_id
– ИНН клиента банка week
— глобальный номер неделиtarget
– значения временного рядаЦелевая переменная с временным рядом по каждому клиенту несет следующий смысл:
Сумма всех внешних переводов
inn_id
клиента ВТБ …… со своих счетов в ВТБ …
… за неделю
week
Воспроизвести target
на основе транзакций (далее на странице) для выбранного клиента inn_id
на конкретнную неделю week
можно следующим образом:
transaction_i.parquet
(i от 1 до 4)date
должны относиться к датам из соответствующей глобальной недели week
из файла с календарем calendar.csv
. Для этого стоит смерджить данные транзакций с файлом calendar.csv
по полю date
doc_payer_inn
из файла с транзакциями должен соответствовать выбранному inn_id
doc_payer_bank_name_flag == 1
trns_amount
для выбранных транзакций 40.3MB, заранее подготовленные данные временных рядов, которые требуется прогнозировать
Сопроводительный файл
date
– дата (с “2022-07-25” по "2024-10-27)week
— глобальный номер недели (с 0 по 117)part
– напоминание к какой части данных относится дата (train
, public
, private
)В целях удобства подсчета недель (особенно в ситуациях начала нового года), недели организованы в виде глобальной последовательности. Глобальные недели считаются по полным неделям с понедельника по воскресенье.
16.7KB, сопроводительный файл с календарем для воспроизведения агрегирования временных рядов по неделям
Пример корректного базового решения, состоящего из 3 столбцов:
inn_id
– ИНН клиента банка week
— глобальный номер неделиpredict
– предсказанные значения для временного рядаОсновная информация о транзакциях между юридическими лицами:
date
– Дата транзакцииdoc_payer_inn
— ИНН клиента отправителя (от кого транзакция)doc_payee_inn
– ИНН клиента получателя (кому транзакция)trns_count
– Количество транзакций (между отправителем и получателем)trns_amount
– Сумма транзакции/транзакций doc_payer_bank_name_encoded
– Идентификатор банка отправителяdoc_payee_bank_name_encoded
– Идентификатор банка получателяdoc_payer_bank_name_flag
– Флаг наличия подстроки ВТБ в названии банка отправителяdoc_payee_bank_name_flag
– Флаг наличия подстроки ВТБ в названии банка получателяtrns_class_encoded
– Класс транзакции (размеченный с помощью модели)Вспомогательная информация транзакций, полезная для более глубокого анализа:
date
– Дата транзакцииdoc_payer_inn
— ИНН клиента отправителя (от кого транзакция)doc_payee_inn
– ИНН клиента получателя (кому транзакция)doc_payer_acc_num_encoded
– Номер счета отправителя, срез 1:5doc_payee_acc_num_encoded
– Номер счета получателя, срез 1:5db_acc_num_encoded
– Номер счета по дебету проводки, срез 1:5cr_acc_num_encoded
– Номер счета по кредиту проводки, срез 1:5doc_payer_acc_num_bal_encoded
– Номер счета отправителя, срез 1:3doc_payee_acc_num_bal_encoded
– Номер счета получателя, срез 1:3db_acc_num_bal_encoded
– Номер счета по дебету проводки, срез 1:3cr_acc_num_bal_encoded
– Номер счета по кредиту проводки, срез 1:3647.0MB, сопроводительные данные для транзакций с 2022-07-25 по 2023-01-29
683.9MB, сопроводительные данные для транзакций с 2023-01-30 по 2023-07-30
741.4MB, сопроводительные данные для транзакций с 2023-07-31 по 2024-02-04
764.3MB, сопроводительные данные для транзакций с 2024-02-05 по 2024-08-04
Основная информация о транзакциях между юридическими лицами:
inn_id
– ИНН клиентаreport_date
— Отчетная датаipul
– Флаг ИП/ЮЛid_region
– Регионmain_okved_group
– Первые две цифры ОКВЭДdiff_datopen_report_date_flg
– Бакет разницы между датой регистрации и отчетной датойCookies help us deliver our services. By using our services, you agree to our use of cookies.