Предсказание кредитного дефолта по данным кредитных историй
deep learningneural networkscredit scoringcompetition
Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами проведения онлайн-соревнования «Data Fest 2022. Соревнование на данных кредитных историй».
Кредитный скоринг – важнейшая банковская задача. Стандартным подходом к ее решению является построение классических моделей машинного обучения, таких как логистическая регрессия и градиентный бустинг, на табличных данных, в том числе используя агрегации от каких-нибудь последовательных данных, например, транзакционных историй клиентов. Альтернативный подход заключается в использовании последовательных данных “как есть”, подавая их на вход рекуррентной нейронной сети.
В этом соревновании участникам предлагается решить задачу кредитного скоринга клиентов Альфа-Банка, используя только данные кредитных историй.
Датасет соревнования устроен таким образом, что кредиты для тренировочной выборки взяты за период в М месяцев, а кредиты для тестовой выборки взяты за последующие K месяцев.
Каждая запись кредитной истории содержит самую разнообразную информацию о прошлом кредите клиента, например, сумму, отношение клиента к кредиту, дату открытия и закрытия, информацию о просрочках по платежам и др. Все публикуемые данные тщательно анонимизированы.
Целевая переменная – бинарная величина, принимающая значения 0 и 1, где 1 соответствует дефолту клиента по кредиту.
Подробное описание файлов и полей датасета соревнования участники могут найти во вкладке Данные.
Метрика соревнования – ROC AUC. Подробнее про метрику можно почитать, например, здесь.
Решения принимаются в виде csv-файла с двумя колонками: “id” – уникальный идентификтор и “score” – предсказание дефолта клиента по кредиту. Пример самбита можно найти в файле sample_submission.csv.
Промежуточные итоги подводятся на public-части тестовой выборки. Победители и призеры определяются на private-части тестовой выборки. И промежуточную, и окончательную таблицу лидеров можно найти во вкладке Таблица лидеров.
Для получения денежных призов победителям и призерам соревнования необходимо прислать свое решение в виде docker контейнера, содержащего код для обучения и инференса лучшей модели на языке Python.
В соревновании разрешено объединение участников в команды до 4 человек. Возможность объединения в команды закрывается за 2 недели до окончания соревнования.
Чтобы объем данных не стал препятствием для участия пользователей с небольшим количеством доступных вычислительных ресурсов, организаторами подготовлен набор полезных функций для пакетной обработки данных.
Кроме того, чтобы помочь участникам быстрее влиться в задачу соревнования, организаторами подготовлены несколько базовых решений задачи.
Все эти материалы можно найти в репозитории по ссылке.
Потренироваться в решении задачи кредитного скоринга на последовательных банковских данных можно в учебном Соревновании на данных карточных транзакций. Кроме того, в этом соревновании можно почерпнуть идеи для усовершенствования нейросетевого бейзлайна: к нему опубликован продвинутый нейросетевой бейзлайн, видео с его подробным объяснением, а также статья на хабр.
Все участники учебного соревнования получат бесценный опыт для решения основного Соревнования на данных кредитных историй, а победителям и призерам учебного соревнования мы подарим фирменный мерч Альфа-Банка.
Призовой фонд разделят авторы 3 решений с наибольшей метрикой на private-части тестовой выборки:
1 место – 300 000 рублей
2 место – 200 000 рублей
3 место – 100 000 рублей
Также мы подарим фирменный мерч Альфа-Банка участникам, которые первые побьют нейросетевое базовое решение на 2 пункта ROC AUC.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.