Ended 4 years ago
63 participants
470 submissions

Materials (25 MB)

Download all materials
baseline.py
1 MB
data_test.zip
8 MB
data_train.zip
7 MB
sample_images.zip
7 MB
sample_submit.csv
1 MB
soreva_metrics.py
1 MB

В этом соревновании у тебя не будет прямого доступа к рентгеновским изображениям - пока мы не можем предоставить оригиналы из соображений приватности, но мы работаем над этим, и, надеемся, в следующем соревновании будет возможность обучать модели на картинках.

В качестве сырых данных ты получишь предсказания нескольких нейронных сетей-детекторов для маммограмм молочной железы разных пациентов. На вход в каждую нейронную сеть попадает два снимка каждой груди, снятых под разными углами (проекции CC и MLO) в одно и то же время. На выходе мы получаем ряд предсказаний, которые представлены в виде формата json:

  • Ключи CC и MLO содержат информацию о детектируемых объектах
    • coordinates - координаты детектируемого объекта на изображении (x_min, y_min, x_max, y_max)
    • object_type - тип детектируемого объекта
      • mass_malignant - злокачественное новообразование
      • mass_benign - доброкачественное новообразование
      • calcinates_malignant - злокачественные кальцинаты
      • calcinates_benign - доброкачественные кальцинаты
      • calcified cyst - кальцифицированная киста
      • calcified vesselss - кальцифицированные сосуды
      • fibrocystic_breast_changes - фиброзно-кистозная мастопатия
      • lymphonodus - лимфоузлы
      • nipple - сосок
      • other - прочие объекты
      • pectoral muscle - косая мышца
      • skin_thickening - утолщение кожи
      • artifact - артефакты изображения
      • papilloma - папилломы
    • probability - вероятность того, что этот bounding box принадлежит к этому классу
    • model_number - номер модели, сделавшей предсказание (1, 2 или 3)
  • target_birads - целевая переменная, классификация по шкале Bi-Rads от 1 до 5
  • tissue_density_predicted - предсказанная отдельной моделью плотность молочной железы по шкале от 1 до 4
  • cancer_probability_predicted - предсказанная отдельной моделью вероятность наличия рака на груди
  • patient_id - уникальный номер пациента
  • laterality - сторона груди, левая (L) или правая (R) грудь

Мы также прикладываем 2 примера изображений для трейн-сета (их можно сопоставить с данными из json файлов по уникальному id и проекции).

Метрика

Шкала Bi-Rads является ординальной:

  • 1 - маммограммы без патологии
  • 2 - маммограммы с доброкачественным изменениями
  • 3 - маммограммы с доброкачественными изменениями, с подозрением на рак не более 2%
  • 4 - маммограммы с подозрением на злокачественные изменения (от 2% до 94%)
  • 5 - маммограммы с подозрением на злокачественные изменения (более 95%)

Целевая метрика складывается из двух компонентов:

  • Взвешенный balanced accuracy (WBA) - среднее взвешенное чувствительностей по каждому классу (веса классов - 1.0, 1.0, 1.5, 1.5, 1.5). Этот компонент отвечает за корректные предсказания по классам, причём классы с подозрением на злокачественные изменения предсказывать верно важнее.
  • Macro Averaged Mean Absolute Error (MA-MAE) - метрика для несбалансированной ординальной классификации в условиях дисбаланса классов. Если правильный Bi-Rads - 2, то лучше предсказать 1, чем 4, эта метрика это учитывает.

Итоговое значение метрики считается как WBA - 0.25 * MA-MAE (веса подобраны эмпирически).

Самбиты

Сабмиты должны быть в csv-файлах, содержащих две колонки - id и BiRads. id - ключ словаря, BiRads - целое число от 1 до 5. Названия колонок регистрочувствительны. Пропусков быть не должно.

Советы

  • Не забывайте, что входные данные - это не Ground Truth, а шумные предсказания разных сетей разного качества
  • Для каждой груди делается два снимка (проекции CC и MLO) - это информацию можно использовать для генерации полезных фичей
  • Для каждого уникального пациента в данных может быть 1 или 2 груди

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy