Ended 8 months ago
903 participants
4979 submissions

Data Fusion Contest 2024 - Задача 2 «Отток»

Участникам необходимо решить Time-to-Event задачу предсказания оттока клиентов банка на основе истории их транзакций.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2024.

Постановка задачи

Необходимо решить задачу предсказания оттока клиентов банка. А именно, используя данные транзакций за 6 месяцев, требуется построить алгоритм, предсказывающий вероятность оттока клиента в следующие 6 месяцев. Особенностью задачи является то, что в рамках тренировочных данных для обучения, участникам передается не только метка, соответствующая тому, что клиент “уйдёт в отток”, но и время до его последней транзакции. Подробнее про структуру и особенности данных можно узнать на странице “Данные”.

Предсказание оттока клиентов это крайне распространенная задача, встречающаяся в множестве компаний в самых разных индустриях. Несмотря на свою широкую распространенность, в задачах оттока есть большое количество подводных камней и особенностей, о которых часто говорят, но практически никогда не показывают на практике. С другой стороны, в задачах оттока имеется множество полезных наработок, аналитических практик и целых научных направлений, о которых мало кто знает за пределами практикующих экспертных команд. 

В рамках этого соревнования участники могут подойти к решению задачи большим количеством способов. В частности, наличие в рамках обучающих данных такой информации, как время до последней транзакции, позволит участникам воспользоваться Time-to-Event подходами в машинном обучении.  

Формат решений

Это табличное соревнование с разметкой предоставленного вам .csv файла. Вам необходимо создать алгоритм, способный по предоставленным в рамках соревнования данным, создать новый табличный .csv файл с двумя столбцами:

user_id, predict
9, -3.1415926
61, -1.7320508
...
562205, 2.718282

Здесь user_id – идентификатор клиентов банка, predict – предсказание вашего алгоритма. Предсказания необходимо построить для всех 32,000 клиентов из тестовых данных. Примеры sample_submission.csv доступны на странице “Данные”.

Проверка решений

  • Решения проверяются автоматически путем сопоставления с известными истинными метками об оттоке клиентов, а также датах их последних транзакций. Истинные метки и даты последних транзакций клиентов в тестовых данных доступны только организаторам.
  • Метрика соревнования — CI, также известная как Concordance Index или (Harrel's) C-index. Для тех, кто впервые сталкивается с этой метрикой, на нее стоит смотреть как на обобщение ROC-AUC для Time-to-Event задач. В соревновании используется реализация подсчета метрики из библиотеки lifelines: lifelines.utils.concordance_index
  • Чтобы вы не запутались с правильным порядком (прямой или обратный), а также, чтобы пресечь “silent mode” практики, решениям в качестве их результатов  присваивается max(CI, 1 - CI).
  • Соотношение public/private в соревновании составляет 50/50. Победители соревнования определяются по результатам на private лидерборде.

Информация для участников

  • В соревновании можно принимать участие из любой точки мира. Участники могут объединяться в команды до 4-х человек. Участвовать можно в любом количестве из предложенных задач и номинаций. Победители соревнования смогут получить денежные призы только на расчетные счета банков, зарегистрированных на территории Российской Федерации.  Просим вас позаботиться об открытии счета в РФ заранее.
  • Ответы на вопросы по всему Data Fusion Contest 2024 доступны на FAQ странице трека.

Призовой фонд задачи 2, Отток

1 место: 500 000 рублей
2 место: 250 000 рублей
3 место: 150 000 рублей

Номинация Companion по задаче Отток: 
50 000 рублей (по состоянию на “экватор” соревнования)
50 000 рублей (после дедлайна соревнования)

Полезные материалы

Как вы уже, наверное, догадались, это соревнование — площадка для освоения и испытаний Time-to-Event подходов в машинном обучении. Чтобы вы могли погрузиться в эту область, а также вдохновиться подходами и идеями, хотим поделиться с вами наиболее интересными материалами по теме, отобранными в ходе подготовки соревнования.

Статьи:

  • [Arxiv, 2023] Deep Learning for Survival Analysis: A Review — качественный обзор современных нейросетевых архитектур и постановок в Time-to-Event задачах.
  • [NCBI, 2021] Review of Statistical Methods for Evaluating the Performance of Survival or Other Time-to-Event Prediction Models (from Conventional to Deep Learning Approaches) — обзор метрик, используемых в Time-to-Event задачах.
  • [ACM, 2019] Machine Learning for Survival Analysis: A Survey — обзор применения машинного обучения в Time-to-Event задачах, может использоваться как пособие для начинающих.
  • [Git, 2016] WTTE-RNN - Less hacky churn prediction — легендарный пост-статья про проблемы задачи предсказания оттока, и как к задаче стоило бы подходить. (выбор редакции ♥)
  • [Chalmers Thesis, 2017] WTTE-RNN : Weibull Time To Event Recurrent Neural Network A model for sequential prediction of time-to-event in the case of discrete or continuous censored data, recurrent events or time-varying covariates — "сопроводительный" диссер, по материалам которого была написана статья выше.

Библиотеки:

  • Survival analysis with Catboost — почти не секретный туториал по тому, как запускать Cox и AFT модели на Catboost
  • scikit-survival — библиотека по Survival / Time-to-Event задача на Python, на основе scikit-learn
  • auton-survival — актуальная библиотека по Survival / Time-to-Event анализу на Python, включая нейросетевые модели от CMU
  • lifelines — общая библиотека по классическому Survival Analysis на Python с основным статистическим инструментарием
  • (давно не обновлялась) PySurvival — библиотека по Survival / Time-to-Event задачам на Python. В том числе с туториалом по оттоку (churn)
  • (давно не обновлялась) PyCox — библиотека по нейросетевым моделям для Time-to-Event задач на основе pytorch

Cookies help us deliver our services. By using our services, you agree to our use of cookies.