Data — AI-Academy Contest. Распознавание тетрадей

Description Data FAQ Leaderboard

Dockerfile	1 MB
requirements.txt	1 MB
submit.zip	351 MB
evaluate.py	1 MB
data.zip	5,632 MB

Набор данных для обучения модели сегментации

Набор содержит:

864 изображения, которые лежат в папке train_segmentation/images
Соответствующие этим изображениям аннотации в формате COCO, которые представляют собой информацию о разметке данных. Аннотации можно найти в файле train_segmentation/annotations.json

Файл annotations.json — словарь. Он имеет три ключа: ['images', 'annotations', 'categories'].

annotations['images'] — это список словарей вида {'id': 0, 'file_name': '0.jpg', 'width': 4000, 'height': 3000}. В annotations['images'] лежит список словарей с информацией об изображениях. В частности там указан id изображения, путь до него (file_name), а также его ширина и высота — width и height.
annotations['categories'] — это список словарей вида {'id': 1, 'name': 'text'}. Здесь лежит список всех категорий в датасете с указанием численного id и названия name . У нас всего один класс объектов, поэтому в этом списке всего один элемент.
annotations['annotations'] — это список словарей вида {'category_id': 1, 'area': 11066.0, 'attributes': {'occluded': False, 'translation': 'диктант.'}, 'image_id': 198, 'iscrowd': 0, 'id': 36002, 'bbox': [1163.91, 1929.18, 282.64, 87.36], 'segmentation': [[1195.77, 1929.18, 1177.27, 1943.57, 1181.38, 1962.58, 1168.02, 1981.6, 1163.91, 2000.61, 1164.94, 2016.54, 1179.33, 2013.97, 1200.91, 1970.81, 1257.44, 1976.46, 1372.55, 1975.43, 1445.52, 1981.08, 1446.55, 1965.15, 1424.45, 1969.27, 1425.48, 1940.49, 1320.64, 1936.89]]}.

Тут лежит информация о выделенных объектах на изображениях, то есть информация о каждом полигоне, а также доступна информация о каждом bounding box:

id — уникальный номер аннотации.
image_id — уникальный номер изображения к которому относится данная аннотация.
segmentation — координаты полигона, представлен в виде списка координатных пар XY.
category_id — номер категории, описывает к какому классу относится конкретное слово в аннотации. Класс всего 1.
attributes — поле, в котором записан текстовый перевод слова по ключу translation. Это поле не используется для обучения модели сегментации. Но участники, при желании, могут собрать свой датасет для обучения модели распознавания, например, вырезав слова не по координатам маски, а по координатам bounding box.
area — не используется.
bbox — координаты bounding box в формате XYWH (XY — координаты левого верхнего угла, WH — длина и ширина bounding box). В данной задаче не используется.
iscrowd - не используется.

В основном файле для обучения annotations.json мы используем только один лейбл — текст. Но в изначальной разметке присутствовало 4 лейбла:

Обычный текст ученика, все что написано синей ручкой в тетради.
Комментарий ученика. Это различные пометки карандашом на полях, выделение частей речи и т.д.
Комментарий учителя. Различные пометки учителя, оценки, и т.д.
Страница тетради. Выделение одной страницы тетради по контуру.

Финальная метрика данного хакатона будет рассчитываться исходя из распознавания любого текста, то есть между лейблами 1-3 не будет делаться никакой разницы. Однако заинтересованные участники могут извлечь полезную информацию из разметки текстов разного типа, поэтому мы предоставляем дополнительный файл annotations_extended.json. Он аналогичен annotations.json, только в нем содержится информация о разметке разными лейблами.

Набор данных для обучения модели распознавания

В вашем распоряжении:

147366 изображения. Лежат в папке train_recognition/images
Аннотации можно найти в файле train_recognition/labels.csv. Эта таблица, которая имеет 3 колонки: ['file_name', 'text', 'base_image'].
- file_name — название картинки из train_recognition/images.
- text — соответствующий текстовый перевод.
- base_image — название изображение страницы из train_segmentation/images, откуда было взято данное слово

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy

Learn More

Materials (5,986 MB)

Набор данных для обучения модели сегментации

Набор данных для обучения модели распознавания