В этом соревновании у тебя не будет прямого доступа к рентгеновским изображениям - пока мы не можем предоставить оригиналы из соображений приватности, но мы работаем над этим, и, надеемся, в следующем соревновании будет возможность обучать модели на картинках.
В качестве сырых данных ты получишь предсказания нескольких нейронных сетей-детекторов для маммограмм молочной железы разных пациентов. На вход в каждую нейронную сеть попадает два снимка каждой груди, снятых под разными углами (проекции CC и MLO) в одно и то же время. На выходе мы получаем ряд предсказаний, которые представлены в виде формата json:
- Ключи CC и MLO содержат информацию о детектируемых объектах
- coordinates - координаты детектируемого объекта на изображении (x_min, y_min, x_max, y_max)
- object_type - тип детектируемого объекта
- mass_malignant - злокачественное новообразование
- mass_benign - доброкачественное новообразование
- calcinates_malignant - злокачественные кальцинаты
- calcinates_benign - доброкачественные кальцинаты
- calcified cyst - кальцифицированная киста
- calcified vesselss - кальцифицированные сосуды
- fibrocystic_breast_changes - фиброзно-кистозная мастопатия
- lymphonodus - лимфоузлы
- nipple - сосок
- other - прочие объекты
- pectoral muscle - косая мышца
- skin_thickening - утолщение кожи
- artifact - артефакты изображения
- papilloma - папилломы
- probability - вероятность того, что этот bounding box принадлежит к этому классу
- model_number - номер модели, сделавшей предсказание (1, 2 или 3)
- target_birads - целевая переменная, классификация по шкале Bi-Rads от 1 до 5
- tissue_density_predicted - предсказанная отдельной моделью плотность молочной железы по шкале от 1 до 4
- cancer_probability_predicted - предсказанная отдельной моделью вероятность наличия рака на груди
- patient_id - уникальный номер пациента
- laterality - сторона груди, левая (L) или правая (R) грудь
Мы также прикладываем 2 примера изображений для трейн-сета (их можно сопоставить с данными из json файлов по уникальному id и проекции).
Метрика
Шкала Bi-Rads является ординальной:
- 1 - маммограммы без патологии
- 2 - маммограммы с доброкачественным изменениями
- 3 - маммограммы с доброкачественными изменениями, с подозрением на рак не более 2%
- 4 - маммограммы с подозрением на злокачественные изменения (от 2% до 94%)
- 5 - маммограммы с подозрением на злокачественные изменения (более 95%)
Целевая метрика складывается из двух компонентов:
- Взвешенный balanced accuracy (WBA) - среднее взвешенное чувствительностей по каждому классу (веса классов - 1.0, 1.0, 1.5, 1.5, 1.5). Этот компонент отвечает за корректные предсказания по классам, причём классы с подозрением на злокачественные изменения предсказывать верно важнее.
- Macro Averaged Mean Absolute Error (MA-MAE) - метрика для несбалансированной ординальной классификации в условиях дисбаланса классов. Если правильный Bi-Rads - 2, то лучше предсказать 1, чем 4, эта метрика это учитывает.
Итоговое значение метрики считается как WBA - 0.25 * MA-MAE (веса подобраны эмпирически).
Самбиты
Сабмиты должны быть в csv-файлах, содержащих две колонки - id и BiRads. id - ключ словаря, BiRads - целое число от 1 до 5. Названия колонок регистрочувствительны. Пропусков быть не должно.
Советы
- Не забывайте, что входные данные - это не Ground Truth, а шумные предсказания разных сетей разного качества
- Для каждой груди делается два снимка (проекции CC и MLO) - это информацию можно использовать для генерации полезных фичей
- Для каждого уникального пациента в данных может быть 1 или 2 груди