Участникам доступны несколько наборов данных и артефактов, используемых в обеих задачах:
.csv
формате: transactions.zip
(27 MB)train_target.csv
(27 KB)model.zip
(1 MB)Сопроводительные данные для работы с данными:
mcc_codes.csv
(0.2 MB)currency_rk.csv
(1 KB)sample_submission.zip
(1 MB) submit_defence.zip
(1 MB) Вы можете добавить свое публичное решение к списку baseline-ов соревнования в рамках номинации Companion!
В проверяющую систему необходимо отправить код алгоритма, запакованный в ZIP-архив. Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Внутрь архива также можно прикладывать файлы с уже обученными моделями.
В корне архива обязательно должен быть файл metadata.json
со структурой:
{
"image": "<docker image>",
"entry_point": "<entry point or sh script>"
}
Например:
{
"image": "odsai/vtb23-data-fusion:0.0.1",
"entry_point": "python -u run.py"
}
Здесь image
– поле с названием docker-образа, в котором будет запускаться решение, entrypoint
– команда, при помощи которой запускается скрипт инференса. Решение запускается в Docker контейнере. Вы можете воспользоваться готовым образом "odsai/vtb23-data-fusion:0.0.1"
. В нем предустановлены CUDA и актуальные версии Python библиотек для запуска бейзлайна.
При желании вы можете использовать свой образ, выложив его на https://hub.docker.com. Вебинар о том, как собрать докер.
Решения проверяются автоматически на полностью закрытых тестовых данных, которые не передаются участникам. Тестовое множество не пересекается с доступными данными — оно состоит из новых данных. Соотношение public/private в соревновании составляет 50/50. Отбор для участия в первом (промежуточном) турнире происходит по public лидерборду, отбор на финальный турнир происходит по private лидеборду.
Для участия в турнирах отбираются 10 команд, занявшие первые 10 мест на актуальном для проведения турнира лидерборде:
Если ваша команда попала в список участников турнира, то в турнире участвуют именно выбранные вами итоговые решения. В промежуточном турнире обязательно будет участвовать ваше лучшее на публичном лидерборде решение и еще одно, которое вы можете выбрать.
Если лучшие решения не выбраны, автоматически выбирают 2 решения с лучшими результатами на публичном лидерборде. Итоговые решения можно выбирать и изменять свой выбор на протяжении всего соревнования. Больше информации про турниры и их механики можно найти на Турнирной странице трека.
Для оценки качества будет использоваться среднее гармоническое двух ROC-AUC:
Mean Harm ROC-AUC = 2 / (1 / ROC-AUC original + 1 / ROC-AUC attacked)
Смысл метрики в том, чтобы учесть компромисс между повышением защищенности модели, посчитав ROC-AUC на данных с атаками, и потенциальным снижением качества модели, посчитав ROC-AUC на исходных данных без атак.
transactions.zip
– архив с транзакциями клиентов банка:
user_id
– ID клиента банкаmcc_code
- mcc код транзакции, описание в mcc_codes.csvcurrency_rk
– валюта транзакции, расшифровка в currency_rk.csvtransaction_amt
– сумма в валюте транзакцииtransaction_dttm
– дата и время совершения операцииCookies help us deliver our services. By using our services, you agree to our use of cookies.