Ends in 6 weeks
251 participants
864 submissions

Данные

Для решения задачи “Labelcraft” предлагается несколько групп данных и материалов:

  1. Словарь с деревом категорий (category_tree.csv)
  2. Тренировочные данные
    1. Размеченные товары (labeled_train.parquet)
    2. Неразмеченные товары (unlabeled_train.parquet)
  3. Базовые решения 

Словарь с деревом категорий (category_tree.csv)

Заранее известный перечень категорий и подкатегорий, которые могут встретится в данных:

  • cat_id – идентификатор категории (например 10229)
  • parent_id — идентификатор родительской категории (например 1142; пропуск если это корневая категория)
  • cat_name – краткое название категории (например “Аккумуляторы для фото/видеотехники”).

Размеченные данные о товарах (labeled_train.parquet)

Основная информация о товарах, включая их размеченную категорию:

  • hash_id – Идентификатор товара
  • source_name — Название товара
  • attributes – Атрибуты товара (строка с json)
  • cat_id – Целевая категория товара

Неразмеченные данные о товарах (unlabeled_train.parquet)

Аналогичный файл с данными о товарах, в котором отсутствует разметка

  • hash_id – Идентификатор товара
  • source_name — Название товара
  • attributes – Атрибуты товара (строка с json)

Именно в таком формате решения будут получать информацию во время тестирования платформой соревнования.

Базовые решения

Пример корректного решения с корректным образом, а также ноутбук для воспроизведения решения.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.