Кто там? Предскажите, кто вошел в здание по времени и турникету. Мы знаем, что "след" через турникеты принадлежит "Х". Кто этот "Х" предстоит вычислить по данным. ID юзеров известны по обучающей выборке (кроме нескольких новых!).
Чтобы попасть в здание, нужно пройти через турникет. Чтобы открыть парковку, нужно открыть шлагбаум. Чтобы попасть на этаж, нужно приложить “таблетку”. Все это фиксируется - кто, в какую дату, в какое время.
Сможем ли мы выучить кому конкретно принадлежит след прохода через турникеты? Мы знаем, что это был кто-то, кто уже был, хотя … есть несколько новых посетителей.
“8 утра понедельник, турникет 4? Директор.” “11 утра суббота? Гриша. Но Гриша в последний день месяца никогда не приходит.” Какие есть закономерности в настоящих данных?
В тестовой выборке id посетителей заменены на слова, которые встречались в курсе "Линейные модели": aucroc, binary, blue, categorical и т.п.
Ваша задача составить таблицу вида:
| user_word | preds |
| aucroc | 49 |
| binary | 12 |
| blue | 55 |
| categorical | -999 |
| coefficient | 15 |
| ... | … |
где user_word - index, preds - колонка с соответствующими id. Таблицу нужно запомнить как csv (см. пример в разделе Данные). -999 – id нового посетителя, которого раньше не было.
Каждому слову сопоставлен вес, который зависит от того, насколько трудно предсказать id. Баллы набираются как взвешенная по весам сумма правильных ответов. Чем сложнее вы отгадали слово, тем больше баллов.
Отгадали все? Забирайте 560 баллов и становитесь безусловным победителем. Набрали меньше - посчитаем баллы по итоговому месту в турнирной таблице.
Конкурс уже проводился, поищите наработки: исследование источников - это часть работы дата аналитика. Для победы в конкурсе вам понадобятся: конструирование признаков, анализ данных, использование разных моделей, подбор гиперпараметров, валидация – всё как в настоящей работе.
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy