Финальный этап соревнования от Альфа-Банка! Это не будет соревнованием по машинному обучению, так как на последнем этапе вы не будете подбирать гиперпараметры, а будете выбирать данные для разметки, как это происходит на практике, чтобы улучшить свое решение
Перед тем, как участвовать в соревновании, приглашаем вас в трек “NLP in practice”, где мы подробно разбираем все технические этапы, с которыми сталкиваются дата-сайентисты в NLP на практике. Переходите по ссылке, смотрите обучающие видео и участвуйте в квизах по ним!
Данные чеков ОФД содержат детальную информацию о тратах клиентов. Они помогают улучшать качество моделей кредитного скоринга и склонности к банковским продуктам, а также улучшать пользовательский опыт за счет структуризации трат клиентов в мобильном приложении. Однако работа с этим источником затрудняется его неструктурированностью: вся информация о купленном товаре лежит в одной строке произвольного формата.
В предположении что каждая чековая позиция описывает какой-либо товар, наименование этого товара, а также его бренд, являются главной информацией, которую можно извлечь из чека. По итогу задача структуризации этих данных ограничивается выделением и нормализацией брендов и товаров.
Участникам соревнования предоставляются два датасета с чековыми позициями, размеченный и неразмеченный:
Метрика соревнования - (F1_good + 2 * F1_brand) / 3, где F1_good- это метрика F1 на товарах, а F1_brand - это метрика F1 на брендах. Для подсчета F1 мы для считаем две метрики:
После чего метрика считается по знакомой формуле F1 = 2 / (1 / precision + 1 / recall)
Подробнее о данной модификации F1 для задач, подобных NER, можете прочитать по ссылке (раздел CoNLL).
Решения принимаются в виде csv-файла с тремя колонками: "id" - уникальный идентификтор, "brand" - бренды содержащиеся в данной чековой позиции, и "good" - товары содержащиеся в данной чековой позиции. Пример сабмита можно найти в файле sample_submission.csv.
Если в чековой позиции содержится больше одного бренда или товара, то нужно указать их через запятую. Промежуточные итоги подводятся на public-части тестовой выборки. Победители и призеры определяются на private-части тестовой выборки.
Решения принимаются в виде zip-архива размером не более 5Gb, имеющего структуру:
В файле metadata.json должны быть два поля:
Решение запускается в Docker-контейнере, указанном в metadata.json. На вход в entry_point подаются:
--dataset DATASET_PATH
- путь к датасету--output OUTPUT_PATH
- путь для сохранения предсказаний моделиПример подаваемых аргументов: --dataset ./dataset.csv --output ./pred.csv
Примеры Dockerfile'а и архива с решением вы можете найти на вкладке Данные
Ресурсы для образа:
Предсказания модели должны представлять собой csv-файл с тремя колонками: "id" - уникальный идентификтор, "brand" - бренды содержащиеся в данной чековой позиции, и "good" - товары содержащиеся в данной чековой позиции. Пример предсказаний можно найти в файле sample_submission.csv. Если в чековой позиции содержится больше одного бренда или товара, то нужно указать их через запятую.
Промежуточные итоги подводятся на public-части тестовой выборки. Победители и призеры определяются на private-части тестовой выборки. И промежуточную, и окончательную таблицу лидеров текущего этапа можно найти во вкладке Таблица лидеров.
Запрещается использовать полученную вручную разметку, кроме предоставленной организаторами в датасетах и в рамках процесса доразметки, в выборках для модели, а также в посылках. Организаторы имеют право запросить Docker-контейнер с обучением и инференсом модели для подтверждения честности полученных результатов.
Однако разрешается собирать неразмеченные данные из открытых источников, при условии полной автоматизации данного процесса (то есть участник может предоставить Docker-контейнер в котором воспроизводится весь процесс)
Чтобы помочь вам быстрее влиться в задачу соревнования, мы подготовили несколько базовых решений задачи. Все эти материалы можно найти в репозитории по ссылке.
Призовой фонд разделят авторы 3 решений с наибольшей метрикой на private-части тестовой выборки на этапе 4
Для получения денежных призов победителям и призерам соревнования необходимо прислать свое решение в виде Docker-контейнера, содержащего код для обучения и инференса лучшей модели на языке Python.
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy