Нажимая кнопку «Отправить решение», вы соглашаетесь с Правилами участия в соревновании.
Обратите внимание: до дедлайна выбора финальных сабмитов второго этапа участник заполняет форму: https://forms.yandex.ru/u/6912ff409029024866e7cbce/ — с указанием UID на ods.ai, ID на talent.kruzhok.org и ссылкой на артефакты.
Форму можно отправлять повторно; к проверке принимается последняя подача до дедлайна. Отсутствие формы или её подача после дедлайна означает, что даже при достаточном результате на лидерборде ODS переход в следующий этап реализован не будет.
Контекст: Крупная книжная онлайн-платформа собирает данные о взаимодействиях пользователей с книгами. Данные разделены хронологически на несколько частей (чанков). Для этого этапа мы моделируем реальную ситуацию: у нас есть история взаимодействий пользователей до определённого момента времени (train.csv), и нам нужно предсказать оценку для их следующего взаимодействия в будущем (test.csv).
Цель: Разработать модель машинного обучения, которая на основе истории взаимодействий пользователя (train.csv) предсказывает оценку (rating), которую этот пользователь поставит своей следующей прочитанной книге.
Особенности задачи:
train.csv) содержит данные за один период времени, а тестовая — за следующий. Это имитирует реальную задачу, где модель должна предсказывать будущие предпочтения.Это классическая задача регрессии в контексте рекомендательных систем. Она проверяет навыки работы с разреженными табличными данными, генерации признаков и построения точных прогнозных моделей.
Для быстрого старта предоставлено бейзлайн-решение, которое можно и нужно использовать в качестве отправной точки для разработки собственного решения.
Бейзлайн расположен по ссылке: https://github.com/Orange-Hack/nto-ai-25-26-individual-baseline. Если вы предпочитаете работу в Jupyter Notebook'ах (.ipynb) -- см. страницу соревнования "Данные". Там лежит ноутбук, дублирующий функционал репозитория и который удобно запустить в Google Colab.
Рекомендация: Для старта работы рекомендуется сделать Fork репозитория. Это позволит бесшовно получать обновления бейзлайна через синхронизацию с оригинальным репозиторием.
Бейзлайн содержит:
Важно: Бейзлайн использует для обучения только книги с has_read=1 (книги, которым была поставлена оценка). Записи с has_read=0 исключаются из обучающей выборки. Это соответствует условию задачи, согласно которому предсказания делаются только для книг, которые были прочитаны и оценены.
Рекомендуется изучить бейзлайн перед началом работы над задачей.
Подробное описание структуры данных, полей и связей между таблицами вынесены в раздел "Данные".
Подробное описание структуры данных, полей и связей между таблицами вынесены в раздел "Данные".
Итоговый балл рассчитывается на основе двух стандартных метрик качества регрессии: среднеквадратичной ошибки (RMSE) и средней абсолютной ошибки (MAE).
Показывает, насколько велики среднестатистические отклонения предсказаний от истинных значений.
Показывает среднюю абсолютную разницу между предсказанными и истинными значениями.
Где N — количество записей в выборке, y_i — истинная оценка, \hat{y}_i — предсказанная оценка.
Для расчёта итогового балла ошибки нормализуются делением на ширину диапазона оценок (R=10). Финальный балл вычисляется как среднее арифметическое нормализованных ошибок, вычтенное из единицы. Чем выше Score, тем лучше результат.
Лидерборд сортируется по убыванию значения Score.
Подробнее см. Правила участия
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy