Ended 2 months ago
700 participants
7057 submissions

Данные

Для решения задачи “Labelcraft” предлагается несколько групп данных и материалов:

  1. Словарь с деревом категорий (category_tree.csv)
  2. Тренировочные данные
    1. Размеченные товары (labeled_train.parquet)
    2. Неразмеченные товары (unlabeled_train.parquet)
  3. Базовые решения 

Словарь с деревом категорий (category_tree.csv)

Заранее известный перечень категорий и подкатегорий, которые могут встретится в данных:

  • cat_id – идентификатор категории (например 10229)
  • parent_id — идентификатор родительской категории (например 1142; пропуск если это корневая категория)
  • cat_name – краткое название категории (например “Аккумуляторы для фото/видеотехники”).

Размеченные данные о товарах (labeled_train.parquet)

Основная информация о товарах, включая их размеченную категорию:

  • hash_id – Идентификатор товара
  • source_name — Название товара
  • attributes – Атрибуты товара (строка с json)
  • cat_id – Целевая категория товара

Неразмеченные данные о товарах (unlabeled_train.parquet)

Аналогичный файл с данными о товарах, в котором отсутствует разметка

  • hash_id – Идентификатор товара
  • source_name — Название товара
  • attributes – Атрибуты товара (строка с json)

Именно в таком формате решения будут получать информацию во время тестирования платформой соревнования.

Базовые решения

Пример корректного решения с корректным образом, а также ноутбук для воспроизведения решения.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy