Ends in 4 days
189 participants
751 submissions

NLP интенсив: задача множественной классификации обратной связи от пользователей

В рамках соревнования предлагается решить одну из реальных задач, с которыми работает ML-команда ecom.tech — задачу множественной классификации текстов для автоматизации исследования обратной связи пользователей Самоката.

ecomNLPобразование

Команда машинного обучения ecom.tech создаёт технологии на основе машинного обучения и искусственного интеллекта для сервисов Самокат и Мегамаркет, логистики в ритейле. Deep Learning School вместе с ecom.tech создали это соревнование вместе, чтобы интегрировать опыт команды с образованием в области глубокого обучения.

Постановка задачи

Команда машинного обучения пользовательского контента занимается внедрением ML-сервисов как для модерации контента, который публикуют пользователи, так и для генерации нового контента на карточках товара. В основном мы работаем с текстовыми данными. Для решения поставленных задач используем различные методы, начиная от rule-based подходов, заканчивая обучением крупных языковых моделей (LLM). 

Здесь вам предлагается решить задачу множественной классификации текстов для определения всех классов, к которым можно отнести каждый экземпляр. Множественная классификация отличается от многоклассовой тем, что экземпляр данных может одновременно относиться сразу к нескольким классам. В задании представлены ответы на опрос, состоящий из части с выбором ответа из списка и расширенного комментария с произвольным текстом. Необходимо для каждого ответа из 50 различных меток классов выбрать все затронутые. В этом задании на вход будет подаваться текст и выбранные теги из ответа на опрос.

Задача - для каждого ответа предсказать все классы затрагиваемых тематик. 

Данные

  • train.csv - ID + текст из ответа + теги из ответа + таргет по каждому классу из ответа; 
  • test.csv - ID + текст из ответа + теги из ответа; 
  • sample_submission.csv - формат ответа: ID - id продукта, предсказание по каждому из 50 классов; 
  • baseline.ipynb - ноутбук с простым решением;
  • trends_description.csv - файл с полным описанием меток класса. 

Призы 

ТОП-20 участников соревнования получат памятные подарки от ecom. tech: мерч и промокоды на покупки в Самокате. 
ТОП-3 получат личные консультации с ML-специалистами из ecom.tech.

Связаться?

Переходите в наш Tg-канал и узнавайте все новости соревнования, а в чате можно задать вопросы организаторам. Также можете присоединяться к хабу ecom.tech.

Зарегистрироваться?

Можно здесь.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.