train.csv | 554 MB | |
test.csv | 829 MB | |
sample_submission.csv | 24 MB |
train.csv
Набор данных по абонентам, 600 000 строк. Если абонент попал в целевую группу, то с ним осуществлялась коммуникация. В контрольной группе коммуникации не было. Переменные:
id
- идентификатор абонента, сквозная нумерация, все абоненты уникальны
treatment_group
- вхождение абонента в целевую или контрольную группу
X_1...X_50
- анонимизированный набор признаков
conversion
- конверсия, на основе неё нужно оценить влияние коммуникации на абонента
test.csv
Набор данных по абонентам, 900 000 строк. Структура соответствует train.csv, конверсия неизвестна, абоненты уникальны и не повторяются из train.csv.
sample_submission.csv
Пример ответа для отправки.
id
- идентификатор абонента из test.csv
pred
- предсказание uplift, эффекта воздействия коммуникации
Метрика оценки
Для оценки присланных ответов используется Qini коэффициент - обобщение коэффициента Джини в uplift моделировании. Коэффициент Qini определяется следующим образом: $$Q = \frac{S_m - S_r}{S_p - S_r}$$
Qini кривую, в свою очередь, можно рассчитать следующим образом:
$$Qini\ curve(\phi)= C_t(\phi) - \frac{C_c(\phi)N_t(\phi)}{N_c(\phi)}$$
Qini коэффициент был представлен в статье Using control groups to target on predicted lift: Building and assessing uplift model. / Radcliffe, Nicholas. Direct Marketing Analytics Journal, 2007, p. 14-21.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.