Ended 3 years ago
63 participants
470 submissions

Materials (25 MB)

Download all materials
baseline.py
1 MB
data_test.zip
8 MB
data_train.zip
7 MB
sample_images.zip
7 MB
sample_submit.csv
1 MB
soreva_metrics.py
1 MB

В этом соревновании у тебя не будет прямого доступа к рентгеновским изображениям - пока мы не можем предоставить оригиналы из соображений приватности, но мы работаем над этим, и, надеемся, в следующем соревновании будет возможность обучать модели на картинках.

В качестве сырых данных ты получишь предсказания нескольких нейронных сетей-детекторов для маммограмм молочной железы разных пациентов. На вход в каждую нейронную сеть попадает два снимка каждой груди, снятых под разными углами (проекции CC и MLO) в одно и то же время. На выходе мы получаем ряд предсказаний, которые представлены в виде формата json:

  • Ключи CC и MLO содержат информацию о детектируемых объектах
    • coordinates - координаты детектируемого объекта на изображении (x_min, y_min, x_max, y_max)
    • object_type - тип детектируемого объекта
      • mass_malignant - злокачественное новообразование
      • mass_benign - доброкачественное новообразование
      • calcinates_malignant - злокачественные кальцинаты
      • calcinates_benign - доброкачественные кальцинаты
      • calcified cyst - кальцифицированная киста
      • calcified vesselss - кальцифицированные сосуды
      • fibrocystic_breast_changes - фиброзно-кистозная мастопатия
      • lymphonodus - лимфоузлы
      • nipple - сосок
      • other - прочие объекты
      • pectoral muscle - косая мышца
      • skin_thickening - утолщение кожи
      • artifact - артефакты изображения
      • papilloma - папилломы
    • probability - вероятность того, что этот bounding box принадлежит к этому классу
    • model_number - номер модели, сделавшей предсказание (1, 2 или 3)
  • target_birads - целевая переменная, классификация по шкале Bi-Rads от 1 до 5
  • tissue_density_predicted - предсказанная отдельной моделью плотность молочной железы по шкале от 1 до 4
  • cancer_probability_predicted - предсказанная отдельной моделью вероятность наличия рака на груди
  • patient_id - уникальный номер пациента
  • laterality - сторона груди, левая (L) или правая (R) грудь

Мы также прикладываем 2 примера изображений для трейн-сета (их можно сопоставить с данными из json файлов по уникальному id и проекции).

Метрика

Шкала Bi-Rads является ординальной:

  • 1 - маммограммы без патологии
  • 2 - маммограммы с доброкачественным изменениями
  • 3 - маммограммы с доброкачественными изменениями, с подозрением на рак не более 2%
  • 4 - маммограммы с подозрением на злокачественные изменения (от 2% до 94%)
  • 5 - маммограммы с подозрением на злокачественные изменения (более 95%)

Целевая метрика складывается из двух компонентов:

  • Взвешенный balanced accuracy (WBA) - среднее взвешенное чувствительностей по каждому классу (веса классов - 1.0, 1.0, 1.5, 1.5, 1.5). Этот компонент отвечает за корректные предсказания по классам, причём классы с подозрением на злокачественные изменения предсказывать верно важнее.
  • Macro Averaged Mean Absolute Error (MA-MAE) - метрика для несбалансированной ординальной классификации в условиях дисбаланса классов. Если правильный Bi-Rads - 2, то лучше предсказать 1, чем 4, эта метрика это учитывает.

Итоговое значение метрики считается как WBA - 0.25 * MA-MAE (веса подобраны эмпирически).

Самбиты

Сабмиты должны быть в csv-файлах, содержащих две колонки - id и BiRads. id - ключ словаря, BiRads - целое число от 1 до 5. Названия колонок регистрочувствительны. Пропусков быть не должно.

Советы

  • Не забывайте, что входные данные - это не Ground Truth, а шумные предсказания разных сетей разного качества
  • Для каждой груди делается два снимка (проекции CC и MLO) - это информацию можно использовать для генерации полезных фичей
  • Для каждого уникального пациента в данных может быть 1 или 2 груди

Cookies help us deliver our services. By using our services, you agree to our use of cookies.