Ended 3 years ago
435 participants
1625 submissions

Соревнование на данных кредитных историй

Предсказание кредитного дефолта по данным кредитных историй

deep learningneural networkscredit scoringcompetition

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами проведения онлайн-соревнования «Data Fest 2022. Соревнование на данных кредитных историй».

Задача

Кредитный скоринг – важнейшая банковская задача. Стандартным подходом к ее решению является построение классических моделей машинного обучения, таких как логистическая регрессия и градиентный бустинг, на табличных данных, в том числе используя агрегации от каких-нибудь последовательных данных, например, транзакционных историй клиентов. Альтернативный подход заключается в использовании последовательных данных “как есть”, подавая их на вход рекуррентной нейронной сети. 

В этом соревновании участникам предлагается решить задачу кредитного скоринга клиентов Альфа-Банка, используя только данные кредитных историй.

Данные

Датасет соревнования устроен таким образом, что кредиты для тренировочной выборки взяты за период в М месяцев, а кредиты для тестовой выборки взяты за последующие K месяцев.

Каждая запись кредитной истории содержит самую разнообразную информацию о прошлом кредите клиента, например, сумму, отношение клиента к кредиту, дату открытия и закрытия, информацию о просрочках по платежам и др. Все публикуемые данные тщательно анонимизированы.

Целевая переменная – бинарная величина, принимающая значения 0 и 1, где 1 соответствует дефолту клиента по кредиту.

Подробное описание файлов и полей датасета соревнования участники могут найти во вкладке Данные.

Проверка решений

Метрика соревнования – ROC AUC. Подробнее про метрику можно почитать, например, здесь.

Решения принимаются в виде csv-файла с двумя колонками: “id” – уникальный идентификтор и “score” – предсказание дефолта клиента по кредиту. Пример самбита можно найти в файле sample_submission.csv.

Промежуточные итоги подводятся на public-части тестовой выборки. Победители и призеры определяются на private-части тестовой выборки. И промежуточную, и окончательную таблицу лидеров можно найти во вкладке Таблица лидеров.

Для получения денежных призов победителям и призерам соревнования необходимо прислать свое решение в виде docker контейнера, содержащего код для обучения и инференса лучшей модели на языке Python.

Объединение в команды 


В соревновании разрешено объединение участников в команды до 4 человек. Возможность объединения в команды закрывается за 2 недели до окончания соревнования.

Базовые решения и полезные функции


Чтобы объем данных не стал препятствием для участия пользователей с небольшим количеством доступных вычислительных ресурсов, организаторами подготовлен набор полезных функций для пакетной обработки данных.

Кроме того, чтобы помочь участникам быстрее влиться в задачу соревнования, организаторами подготовлены несколько базовых решений задачи.

Все эти материалы можно найти в репозитории по ссылке.

Улучшить нейросетевой бэйзлайн

Потренироваться в решении задачи кредитного скоринга на последовательных банковских данных можно в учебном Соревновании на данных карточных транзакций. Кроме того, в этом соревновании можно почерпнуть идеи для усовершенствования нейросетевого бейзлайна: к нему опубликован продвинутый нейросетевой бейзлайн, видео с его подробным объяснением, а также статья на хабр.

Все участники учебного соревнования получат бесценный опыт для решения основного Соревнования на данных кредитных историй, а победителям и призерам учебного соревнования мы подарим фирменный мерч Альфа-Банка.

Призовой фонд

Призовой фонд разделят авторы 3 решений с наибольшей метрикой на private-части тестовой выборки:
    1 место – 300 000 рублей
    2 место – 200 000 рублей
    3 место – 100 000 рублей

Также мы подарим фирменный мерч Альфа-Банка участникам, которые первые побьют нейросетевое базовое решение на 2 пункта ROC AUC.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy