Ended 3 years ago
398 participants
1269 submissions

Materials (246 MB)

Download all materials
items.csv
30 MB
users.csv
29 MB
interactions.csv
172 MB
sample_submission.csv
13 MB
RecSys notebook EDA.ipynb
1 MB
RecSys notebook Baseline.ipynb
1 MB

Подробное описание данных

EDA notebook с графиками и статистиками по данным.
В представленном датасете собраны данные по пользователям и объектам (сериалы/фильмы), а также по их взаимодействиям (просмотр контента пользователем) из онлайн-кинотеатра Kion. Данные по просмотру контента собраны за ~6 месяцев, с 2021-03-13 по 2021-08-22  включительно, и разбавлены случайным шумом. ID пользователей и контента анонимизированы.

Статистика по датасету:

  • 840к пользователей
  • 16к объектов
  • 5.5кк взаимодействий


users.csv

В данном файле содержится информация о пользователях:

  • user_id - ID пользователя
  • age - возрастная группа пользователя, строка вида "M_N"
    • данный признак - результат работы модели
    • 18_24 - от 18 до 24 лет включительно
    • 25_34 - от 25 до 34 лет включительно
    • 35_44 - от 35 до 44 лет включительно
    • 45_54 - от 45 до 54 лет включительно
    • 55_64 - от 55 до 64 лет включительно
    • 65_inf - от 65 и старше
  • sex - пол пользователя
    • данный признак - результат работы модели
    • М - мужчина
    • Ж - женщина
  • income - доход пользователя, строка вида "M_N"
    • данный признак - результат работы модели
    • income_0_20
    • income_20_40
    • income_40_60
    • income_60_90  
    • income_90_150
    • income_150_inf
  • kids_flg - флаг "наличие ребенка"
    • данный признак - результат работы модели

*Для определения значений признаков дохода и возраста использовалась другая модель.

items.csv

В данном файле содержится информация об объектах (фильмы/сериалы):

  • item_id - ID контента
  • content_type - Тип контента (фильм, сериал)
  • title - Название на русском
  • title_orig - Название оригинальное
  • genres - Жанры из источника (онлайн-кинотеатры)
  • countries - страны
  • for_kids - флаг "контент для детей"
  • age_rating - возрастной рейтинг
  • studios - студии
  • directors - директора
  • actors - актеры
  • keywords - ключевые слова
  • description - описание

interactions.csv

В данном файле содержится информация о взаимодействиях пользователей с контентом:

  • user_id - ID пользователя
  • item_id - ID контента
  • last_watch_dt - Дата последнего просмотра
  • total_dur - Общая продолжительность всех просмотров данного контента в секундах
  • content_type - Тип контента (фильм, сериал)

Из чего состоит тестовая выборка?

На платформе соревнования хранится тестовая выборка с реальными данными (пользователями и контентом, которые они смотрели за 7 дней, идущими после дат из трейна. Часть тестовой выборки выделена для public лидерборда, часть для private.
Выборки разделены случайно, пополам, по юзерам.
Данные скрыты. Платформа посчитает метрику качества вашего предсказания: насколько оно совпадает с реальными данными. Результат расчета вы увидите на лидерборде.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy