Данные — Data Fusion Contest 2023 — Задача 2 «Защита»

Description Данные Leaderboard

Общие данные соревнования

Участникам доступны несколько наборов данных и артефактов, используемых в обеих задачах:

Тренировочные данные клиентских транзакций в табличном .csv формате: transactions.zip (27 MB)
Целевая переменная для тренировочных данных train_target.csv (27 KB)
Предоставленная модель RNN бинарного классификатора в pickle формате model.zip (1 MB)

Сопроводительные данные для работы с данными:

Словарь с расшифровкой MCC кодов транзакций mcc_codes.csv (0.2 MB)
Словарь с расшифровкой кодов валют транзакций currency_rk.csv (1 KB)

Материалы задачи Защита

Пример решения sample_submission.zip (1 MB)
Пример решения submit_defence.zip (1 MB)

Публичные решения от участников

Решение KonderLip, github
Решение Blinov-89, github
Решение Mitrofanov-m, github
Решение Chebax, kaggle

Вы можете добавить свое публичное решение к списку baseline-ов соревнования в рамках номинации Companion!

Формат решений

В проверяющую систему необходимо отправить код алгоритма, запакованный в ZIP-архив. Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Внутрь архива также можно прикладывать файлы с уже обученными моделями.

Docker образы

В корне архива обязательно должен быть файл metadata.json со структурой:

{
    "image": "<docker image>",
    "entry_point": "<entry point or sh script>"
}

Например:

{
    "image": "odsai/vtb23-data-fusion:0.0.1",
    "entry_point": "python -u run.py"
}

Здесь image – поле с названием docker-образа, в котором будет запускаться решение, entrypoint – команда, при помощи которой запускается скрипт инференса. Решение запускается в Docker контейнере. Вы можете воспользоваться готовым образом "odsai/vtb23-data-fusion:0.0.1". В нем предустановлены CUDA и актуальные версии Python библиотек для запуска бейзлайна.

При желании вы можете использовать свой образ, выложив его на https://hub.docker.com. Вебинар о том, как собрать докер.

Ресурсы и ограничения для решений

8 ядер CPU
96Gb RAM
Видеокарта NVidia Tesla V100
5Gb на архив с решением
60 минут на работу решения
5 решений в день на команду

Проверка решений

Решения проверяются автоматически на полностью закрытых тестовых данных, которые не передаются участникам. Тестовое множество не пересекается с доступными данными — оно состоит из новых данных. Соотношение public/private в соревновании составляет 50/50. Отбор для участия в первом (промежуточном) турнире происходит по public лидерборду, отбор на финальный турнир происходит по private лидеборду.

Турниры

Для участия в турнирах отбираются 10 команд, занявшие первые 10 мест на актуальном для проведения турнира лидерборде:

Топ-10 команд с публичного лидерборда для участия в первом (промежуточном) турнире;
Топ-10 команд с приватного лидерборда для участия в финальном турнире.

Если ваша команда попала в список участников турнира, то в турнире участвуют именно выбранные вами итоговые решения. В промежуточном турнире обязательно будет участвовать ваше лучшее на публичном лидерборде решение и еще одно, которое вы можете выбрать.

Если лучшие решения не выбраны, автоматически выбирают 2 решения с лучшими результатами на публичном лидерборде. Итоговые решения можно выбирать и изменять свой выбор на протяжении всего соревнования. Больше информации про турниры и их механики можно найти на Турнирной странице трека.

Метрика

Для оценки качества будет использоваться среднее гармоническое двух ROC-AUC:

Mean Harm ROC-AUC = 2 / (1 / ROC-AUC original + 1 / ROC-AUC attacked)

Смысл метрики в том, чтобы учесть компромисс между повышением защищенности модели, посчитав ROC-AUC на данных с атаками, и потенциальным снижением качества модели, посчитав ROC-AUC на исходных данных без атак.

Глоссарий

transactions.zip – архив с транзакциями клиентов банка:

user_id – ID клиента банка
mcc_code - mcc код транзакции, описание в mcc_codes.csv
currency_rk – валюта транзакции, расшифровка в currency_rk.csv
transaction_amt – сумма в валюте транзакции
transaction_dttm – дата и время совершения операции

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy

Learn More