Ended 2 years ago
374 participants
1269 submissions

Materials (246 MB)

Download all materials
items.csv
30 MB
users.csv
29 MB
interactions.csv
172 MB
sample_submission.csv
13 MB
RecSys notebook EDA.ipynb
1 MB
RecSys notebook Baseline.ipynb
1 MB

Подробное описание данных

EDA notebook с графиками и статистиками по данным.
В представленном датасете собраны данные по пользователям и объектам (сериалы/фильмы), а также по их взаимодействиям (просмотр контента пользователем) из онлайн-кинотеатра Kion. Данные по просмотру контента собраны за ~6 месяцев, с 2021-03-13 по 2021-08-22  включительно, и разбавлены случайным шумом. ID пользователей и контента анонимизированы.

Статистика по датасету:

  • 840к пользователей
  • 16к объектов
  • 5.5кк взаимодействий


users.csv

В данном файле содержится информация о пользователях:

  • user_id - ID пользователя
  • age - возрастная группа пользователя, строка вида "M_N"
    • данный признак - результат работы модели
    • 18_24 - от 18 до 24 лет включительно
    • 25_34 - от 25 до 34 лет включительно
    • 35_44 - от 35 до 44 лет включительно
    • 45_54 - от 45 до 54 лет включительно
    • 55_64 - от 55 до 64 лет включительно
    • 65_inf - от 65 и старше
  • sex - пол пользователя
    • данный признак - результат работы модели
    • М - мужчина
    • Ж - женщина
  • income - доход пользователя, строка вида "M_N"
    • данный признак - результат работы модели
    • income_0_20
    • income_20_40
    • income_40_60
    • income_60_90  
    • income_90_150
    • income_150_inf
  • kids_flg - флаг "наличие ребенка"
    • данный признак - результат работы модели

*Для определения значений признаков дохода и возраста использовалась другая модель.

items.csv

В данном файле содержится информация об объектах (фильмы/сериалы):

  • item_id - ID контента
  • content_type - Тип контента (фильм, сериал)
  • title - Название на русском
  • title_orig - Название оригинальное
  • genres - Жанры из источника (онлайн-кинотеатры)
  • countries - страны
  • for_kids - флаг "контент для детей"
  • age_rating - возрастной рейтинг
  • studios - студии
  • directors - директора
  • actors - актеры
  • keywords - ключевые слова
  • description - описание

interactions.csv

В данном файле содержится информация о взаимодействиях пользователей с контентом:

  • user_id - ID пользователя
  • item_id - ID контента
  • last_watch_dt - Дата последнего просмотра
  • total_dur - Общая продолжительность всех просмотров данного контента в секундах
  • content_type - Тип контента (фильм, сериал)

Из чего состоит тестовая выборка?

На платформе соревнования хранится тестовая выборка с реальными данными (пользователями и контентом, которые они смотрели за 7 дней, идущими после дат из трейна. Часть тестовой выборки выделена для public лидерборда, часть для private.
Выборки разделены случайно, пополам, по юзерам.
Данные скрыты. Платформа посчитает метрику качества вашего предсказания: насколько оно совпадает с реальными данными. Результат расчета вы увидите на лидерборде.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.