items.csv | 30 MB | |
users.csv | 29 MB | |
interactions.csv | 172 MB | |
sample_submission.csv | 13 MB | |
RecSys notebook EDA.ipynb | 1 MB | |
RecSys notebook Baseline.ipynb | 1 MB |
EDA notebook с графиками и статистиками по данным.
В представленном датасете собраны данные по пользователям и объектам (сериалы/фильмы), а также по их взаимодействиям (просмотр контента пользователем) из онлайн-кинотеатра Kion. Данные по просмотру контента собраны за ~6 месяцев, с 2021-03-13 по 2021-08-22 включительно, и разбавлены случайным шумом. ID пользователей и контента анонимизированы.
Статистика по датасету:
В данном файле содержится информация о пользователях:
user_id
- ID пользователяage
- возрастная группа пользователя, строка вида "M_N"
sex
- пол пользователя
income
- доход пользователя, строка вида "M_N"
kids_flg
- флаг "наличие ребенка"
*Для определения значений признаков дохода и возраста использовалась другая модель.
В данном файле содержится информация об объектах (фильмы/сериалы):
item_id
- ID контентаcontent_type
- Тип контента (фильм, сериал)title
- Название на русскомtitle_orig
- Название оригинальноеgenres
- Жанры из источника (онлайн-кинотеатры)countries
- страныfor_kids
- флаг "контент для детей"age_rating
- возрастной рейтингstudios
- студииdirectors
- директораactors
- актерыkeywords
- ключевые словаdescription
- описаниеВ данном файле содержится информация о взаимодействиях пользователей с контентом:
user_id
- ID пользователяitem_id
- ID контентаlast_watch_dt
- Дата последнего просмотраtotal_dur
- Общая продолжительность всех просмотров данного контента в секундахcontent_type
- Тип контента (фильм, сериал)На платформе соревнования хранится тестовая выборка с реальными данными (пользователями и контентом, которые они смотрели за 7 дней, идущими после дат из трейна. Часть тестовой выборки выделена для public лидерборда, часть для private.
Выборки разделены случайно, пополам, по юзерам.
Данные скрыты. Платформа посчитает метрику качества вашего предсказания: насколько оно совпадает с реальными данными. Результат расчета вы увидите на лидерборде.
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy