Кто там? Предскажите, кто вошел в здание по времени и турникету. Но теперь легче: мы знаем, что "след" через турникеты принадлежит "Х". Кто этот "Х" предстоит вычислить по данным, которые нам известны. А ID юзеров известны по обучающей выборке (кроме нескольких новых!).
Чтобы попасть в здание, нужно пройти через турникет. Чтобы открыть парковку, нужно открыть шлагбаум. Чтобы попасть на этаж, нужно приложить “таблетку”. Все это фиксируется - кто, в какую дату, в какое время.
Сможем ли мы выучить кому конкретно принадлежит след прохода через турникеты? Теперь мы знаем, что это был кто-то, кто уже был. (Правда, есть и несколько - не больше 10% - новых).
“8 утра понедельник, турникет 4? Директор.” “11 утра суббота? Гриша. Но Гриша в последний день месяца никогда не приходит.” Какие есть паттерны в настоящих данных?
В тестовой выборке id посетителей заменены на слова, которые встречались в курсе "Линейные модели": aucroc, binary, blue, categorical и т.п.
Ваша задача в этом раунде составить таблицу вида:
user_word | preds |
aucroc | 49 |
binary | 12 |
blue | 55 |
categorical | -999 |
coefficient | 15 |
... | … |
где user_word - index, preds - колонка с соответствующими id. Таблицу нужно запомнить как csv (см. пример в секции Data). -999 – id нового посетителя, которого раньше не было.
Каждому слову сопоставлен вес, который зависит от того, насколько трудно предсказать id. Баллы набираются как взвешенная по весам сумма правильных ответов. Чем сложнее вы отгадали слово, тем больше баллов.
Отгадали все? Забирайте 560 баллов и становитесь победителем.
Для курса "Линейные модели" - используем только линейную (логистическую) регрессию.
Для курса "Деревья и их ансамбли" - используем деревья и ансамбли.
Ну и если вы знаете нейросети, SVM, и все-все-все, то используйте все, но для оценки в курсе будем смотреть на методы, которые вы использовали, и, соответственно, корректировать оценку. Ведь курсы - учебные, значит надо осваивать то, что было на курсе.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.