Ended 3 weeks ago
378 participants
1625 submissions

Соревнование на данных кредитных историй

Предсказание кредитного дефолта по данным кредитных историй

deep learningneural networkscredit scoringcompetition

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами проведения онлайн-соревнования «Data Fest 2022. Соревнование на данных кредитных историй».

Задача

Кредитный скоринг – важнейшая банковская задача. Стандартным подходом к ее решению является построение классических моделей машинного обучения, таких как логистическая регрессия и градиентный бустинг, на табличных данных, в том числе используя агрегации от каких-нибудь последовательных данных, например, транзакционных историй клиентов. Альтернативный подход заключается в использовании последовательных данных “как есть”, подавая их на вход рекуррентной нейронной сети. 

В этом соревновании участникам предлагается решить задачу кредитного скоринга клиентов Альфа-Банка, используя только данные кредитных историй.

Данные

Датасет соревнования устроен таким образом, что кредиты для тренировочной выборки взяты за период в М месяцев, а кредиты для тестовой выборки взяты за последующие K месяцев.

Каждая запись кредитной истории содержит самую разнообразную информацию о прошлом кредите клиента, например, сумму, отношение клиента к кредиту, дату открытия и закрытия, информацию о просрочках по платежам и др. Все публикуемые данные тщательно анонимизированы.

Целевая переменная – бинарная величина, принимающая значения 0 и 1, где 1 соответствует дефолту клиента по кредиту.

Подробное описание файлов и полей датасета соревнования участники могут найти во вкладке Данные.

Проверка решений

Метрика соревнования – ROC AUC. Подробнее про метрику можно почитать, например, здесь.

Решения принимаются в виде csv-файла с двумя колонками: “id” – уникальный идентификтор и “score” – предсказание дефолта клиента по кредиту. Пример самбита можно найти в файле sample_submission.csv.

Промежуточные итоги подводятся на public-части тестовой выборки. Победители и призеры определяются на private-части тестовой выборки. И промежуточную, и окончательную таблицу лидеров можно найти во вкладке Таблица лидеров.

Для получения денежных призов победителям и призерам соревнования необходимо прислать свое решение в виде docker контейнера, содержащего код для обучения и инференса лучшей модели на языке Python.

Объединение в команды 


В соревновании разрешено объединение участников в команды до 4 человек. Возможность объединения в команды закрывается за 2 недели до окончания соревнования.

Базовые решения и полезные функции


Чтобы объем данных не стал препятствием для участия пользователей с небольшим количеством доступных вычислительных ресурсов, организаторами подготовлен набор полезных функций для пакетной обработки данных.

Кроме того, чтобы помочь участникам быстрее влиться в задачу соревнования, организаторами подготовлены несколько базовых решений задачи.

Все эти материалы можно найти в репозитории по ссылке.

Улучшить нейросетевой бэйзлайн

Потренироваться в решении задачи кредитного скоринга на последовательных банковских данных можно в учебном Соревновании на данных карточных транзакций. Кроме того, в этом соревновании можно почерпнуть идеи для усовершенствования нейросетевого бейзлайна: к нему опубликован продвинутый нейросетевой бейзлайн, видео с его подробным объяснением, а также статья на хабр.

Все участники учебного соревнования получат бесценный опыт для решения основного Соревнования на данных кредитных историй, а победителям и призерам учебного соревнования мы подарим фирменный мерч Альфа-Банка.

Призовой фонд

Призовой фонд разделят авторы 3 решений с наибольшей метрикой на private-части тестовой выборки:
    1 место – 300 000 рублей
    2 место – 200 000 рублей
    3 место – 100 000 рублей

Также мы подарим фирменный мерч Альфа-Банка участникам, которые первые побьют нейросетевое базовое решение на 2 пункта ROC AUC.