Ended 4 years ago
78 participants
387 submissions

Materials (1,407 MB)

Download all materials
train.csv
554 MB
test.csv
829 MB
sample_submission.csv
24 MB

train.csv
Набор данных по абонентам, 600 000 строк. Если абонент попал в целевую группу, то с ним осуществлялась коммуникация. В контрольной группе коммуникации не было. Переменные:
id - идентификатор абонента, сквозная нумерация, все абоненты уникальны
treatment_group - вхождение абонента в целевую или контрольную группу
X_1...X_50 - анонимизированный набор признаков
conversion - конверсия, на основе неё нужно оценить влияние коммуникации на абонента

test.csv
Набор данных по абонентам, 900 000 строк. Структура соответствует train.csv, конверсия неизвестна, абоненты уникальны и не повторяются из train.csv.

sample_submission.csv
Пример ответа для отправки.
id - идентификатор абонента из test.csv
pred - предсказание uplift, эффекта воздействия коммуникации

Метрика оценки
Для оценки присланных ответов используется Qini коэффициент - обобщение коэффициента Джини в uplift моделировании. Коэффициент Qini определяется следующим образом: $$Q = \frac{S_m - S_r}{S_p - S_r}$$

Qini кривую, в свою очередь, можно рассчитать следующим образом:
$$Qini\ curve(\phi)= C_t(\phi) - \frac{C_c(\phi)N_t(\phi)}{N_c(\phi)}$$

Qini коэффициент был представлен в статье Using control groups to target on predicted lift: Building and assessing uplift model. / Radcliffe, Nicholas. Direct Marketing Analytics Journal, 2007, p. 14-21.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy