Ended 3 years ago
76 participants
387 submissions

Materials (1,407 MB)

Download all materials
train.csv
554 MB
test.csv
829 MB
sample_submission.csv
24 MB

train.csv
Набор данных по абонентам, 600 000 строк. Если абонент попал в целевую группу, то с ним осуществлялась коммуникация. В контрольной группе коммуникации не было. Переменные:
id - идентификатор абонента, сквозная нумерация, все абоненты уникальны
treatment_group - вхождение абонента в целевую или контрольную группу
X_1...X_50 - анонимизированный набор признаков
conversion - конверсия, на основе неё нужно оценить влияние коммуникации на абонента

test.csv
Набор данных по абонентам, 900 000 строк. Структура соответствует train.csv, конверсия неизвестна, абоненты уникальны и не повторяются из train.csv.

sample_submission.csv
Пример ответа для отправки.
id - идентификатор абонента из test.csv
pred - предсказание uplift, эффекта воздействия коммуникации

Метрика оценки
Для оценки присланных ответов используется Qini коэффициент - обобщение коэффициента Джини в uplift моделировании. Коэффициент Qini определяется следующим образом: $$Q = \frac{S_m - S_r}{S_p - S_r}$$

Qini кривую, в свою очередь, можно рассчитать следующим образом:
$$Qini\ curve(\phi)= C_t(\phi) - \frac{C_c(\phi)N_t(\phi)}{N_c(\phi)}$$

Qini коэффициент был представлен в статье Using control groups to target on predicted lift: Building and assessing uplift model. / Radcliffe, Nicholas. Direct Marketing Analytics Journal, 2007, p. 14-21.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.