Ended 14 months ago
927 participants
4979 submissions

Data Fusion Contest 2024 - Задача 2 «Отток»

Участникам необходимо решить Time-to-Event задачу предсказания оттока клиентов банка на основе истории их транзакций.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2024.

Постановка задачи

Необходимо решить задачу предсказания оттока клиентов банка. А именно, используя данные транзакций за 6 месяцев, требуется построить алгоритм, предсказывающий вероятность оттока клиента в следующие 6 месяцев. Особенностью задачи является то, что в рамках тренировочных данных для обучения, участникам передается не только метка, соответствующая тому, что клиент “уйдёт в отток”, но и время до его последней транзакции. Подробнее про структуру и особенности данных можно узнать на странице “Данные”.

Предсказание оттока клиентов это крайне распространенная задача, встречающаяся в множестве компаний в самых разных индустриях. Несмотря на свою широкую распространенность, в задачах оттока есть большое количество подводных камней и особенностей, о которых часто говорят, но практически никогда не показывают на практике. С другой стороны, в задачах оттока имеется множество полезных наработок, аналитических практик и целых научных направлений, о которых мало кто знает за пределами практикующих экспертных команд. 

В рамках этого соревнования участники могут подойти к решению задачи большим количеством способов. В частности, наличие в рамках обучающих данных такой информации, как время до последней транзакции, позволит участникам воспользоваться Time-to-Event подходами в машинном обучении.  

Формат решений

Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с двумя столбцами:

user_id, predict
9, -3.1415926
61, -1.7320508
...
562205, 2.718282

Здесь user_id – идентификатор клиентов банка, predict – предсказание вашего алгоритма. Предсказания необходимо построить для всех 32,000 клиентов из тестовых данных. Примеры sample_submission.csv доступны на странице “Данные”.

Проверка решений

  • Решения проверяются автоматически путем сопоставления с известными истинными метками об оттоке клиентов, а также датах их последних транзакций. Истинные метки и даты последних транзакций клиентов в тестовых данных доступны только организаторам.
  • Метрика соревнования — CI, также известная как Concordance Index или (Harrel's) C-index. Для тех, кто впервые сталкивается с этой метрикой, на нее стоит смотреть как на обобщение ROC-AUC для Time-to-Event задач. В соревновании используется реализация подсчета метрики из библиотеки lifelines: lifelines.utils.concordance_index
  • Чтобы вы не запутались с правильным порядком (прямой или обратный), а также, чтобы пресечь “silent mode” практики, решениям в качестве их результатов  присваивается max(CI, 1 - CI).
  • Соотношение public/private в соревновании составляет 50/50. Победители соревнования определяются по результатам на private лидерборде.

Информация для участников

  • В соревновании можно принимать участие из любой точки мира. Участники могут объединяться в команды до 4-х человек. Участвовать можно в любом количестве из предложенных задач и номинаций. Победители соревнования смогут получить денежные призы только на расчетные счета банков, зарегистрированных на территории Российской Федерации.  Просим вас позаботиться об открытии счета в РФ заранее.
  • Ответы на вопросы по всему Data Fusion Contest 2024 доступны на FAQ странице трека.

Призовой фонд задачи 2, Отток

1 место: 500 000 рублей
2 место: 250 000 рублей
3 место: 150 000 рублей

Номинация Companion по задаче Отток: 
50 000 рублей (по состоянию на “экватор” соревнования)
50 000 рублей (после дедлайна соревнования)

Полезные материалы

Как вы уже, наверное, догадались, это соревнование — площадка для освоения и испытаний Time-to-Event подходов в машинном обучении. Чтобы вы могли погрузиться в эту область, а также вдохновиться подходами и идеями, хотим поделиться с вами наиболее интересными материалами по теме, отобранными в ходе подготовки соревнования.

Статьи:

  • [Arxiv, 2023] Deep Learning for Survival Analysis: A Review — качественный обзор современных нейросетевых архитектур и постановок в Time-to-Event задачах.
  • [NCBI, 2021] Review of Statistical Methods for Evaluating the Performance of Survival or Other Time-to-Event Prediction Models (from Conventional to Deep Learning Approaches) — обзор метрик, используемых в Time-to-Event задачах.
  • [ACM, 2019] Machine Learning for Survival Analysis: A Survey — обзор применения машинного обучения в Time-to-Event задачах, может использоваться как пособие для начинающих.
  • [Git, 2016] WTTE-RNN - Less hacky churn prediction — легендарный пост-статья про проблемы задачи предсказания оттока, и как к задаче стоило бы подходить. (выбор редакции ♥)
  • [Chalmers Thesis, 2017] WTTE-RNN : Weibull Time To Event Recurrent Neural Network A model for sequential prediction of time-to-event in the case of discrete or continuous censored data, recurrent events or time-varying covariates — "сопроводительный" диссер, по материалам которого была написана статья выше.

Библиотеки:

  • Survival analysis with Catboost — почти не секретный туториал по тому, как запускать Cox и AFT модели на Catboost
  • scikit-survival — библиотека по Survival / Time-to-Event задача на Python, на основе scikit-learn
  • auton-survival — актуальная библиотека по Survival / Time-to-Event анализу на Python, включая нейросетевые модели от CMU
  • lifelines — общая библиотека по классическому Survival Analysis на Python с основным статистическим инструментарием
  • (давно не обновлялась) PySurvival — библиотека по Survival / Time-to-Event задачам на Python. В том числе с туториалом по оттоку (churn)
  • (давно не обновлялась) PyCox — библиотека по нейросетевым моделям для Time-to-Event задач на основе pytorch

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy