Data Fusion Contest 2023 — Задача 2 «Защита»

Можно ли защититься от современных атак на ML модели, не сильно потеряв в качестве? Постройте свою модель, решающую ту же задачу классификации, но при этом устойчивую к Adversarial ML атакам на входные данные.

Правила участия

Нажимая кнопку «Участвовать» и/или «Отправить решение», вы соглашаетесь с Правилами участия в соревновании Data Fusion Contest 2023.

Постановка задачи

Как и в задаче Атака, в вашем распоряжении имеется банковская RNN модель бинарной классификации, предсказывающая дефолт клиента. Доступа к полному объему данных, на которых модель была обучена, у вас нет. Однако, есть небольшая размеченная выборка клиентов с сопроводительными материалами. И вы точно знаете, в каком формате эту модель будут атаковать – меняя небольшое число транзакций, подаваемых модели на вход.

Теперь ваша задача – построить хорошую модель для той же задачи классификации, сделав ее при этом защищенной от подобных уязвимостей. Не в ваших силах предотвратить взлом данных, но полностью в ваших – постараться защитить модель от подобных неприятностей.

Формат решений

Необходимо построить модель классификатора, используя имеющуюся банковскую модель и предоставленные вам размеченные данные транзакций, в формате контейнера с кодом. А именно, используя данные транзакций, обучить модель, использующую информацию о последних 300 транзакциях для бинарной классификации клиентов.

Это контейнерное соревнование с подготовкой решений в виде архива с кодом, который будет автономно запускаться на закрытых тестовых данных. Лидерборды соревнования будут использоваться для квалификации (отбора) на турниры. Так как формат является контейнерным, отбор на каждый из турниров происходит автоматически, для участников на первых 10 местах на момент квалификации на турнир. Квалификация на промежуточный турнир происходит по публичной части лидерборда; квалификация на финальный турнир – по приватной.

Проверка решений

Решения проверяются автоматически. Запуск происходит в изолированной среде без доступа в интернет на полностью закрытых тестовых данных, которые не передаются участникам.
И в публичной и в приватной части рейтинга решения запускаются на двух наборах входных данных: исходных транзакциях, а также на исходных транзакциях с заранее подготовленными организаторами атаками, удовлетворяющими требованиям и ограничениям для задачи Атака.
Соотношение public/private в соревновании составляет 50/50. Победители соревнования определяются по результатам участия в турнирах. Отбор на промежуточный турнир происходит по результатам на public лидерборде, а на финальный — по private лидерборду.
Метрика соревнования — Mean Harm ROC-AUC. Это среднее гармоническое ROC-AUC на исходных данных и на атакованных. Метрика сочетает в себе компромисс между повышением защищенности модели и потенциальным снижением ее качества.

Доступные ресурсы для решений

8 ядер CPU
96Gb RAM
Видеокарта NVidia Tesla V100

Ограничения для решений

5Gb для архива с решением
60 минут на работу решения: 30 минут на public часть и 30 минут на private
Docker-образ, используемый в решении, должен быть опубликован и публично доступен на Dockerhub

Информация для участников

В соревновании можно участвовать из любой точки мира. Участники могут объединяться в команды до 4-х человек. Участвовать можно в любом количестве из предложенных задач и номинаций. Победители соревнования смогут получить денежные призы только на расчетные счета банков, зарегистрированных на территории Российской Федерации. Просим вас позаботиться об открытии счета в РФ заранее.
Ответы на часто задаваемые вопросы по задаче Атака можно найти на странице FAQ. Ответы на вопросы по всему Data Fusion Contest 2023 доступны на FAQ странице трека.
Информация про турниры и их механики доступны на Турнирной странице трека.

Призовой фонд задачи 2, Защита

Призовой фонд в рамках промежуточного турнира:

1 место: 125 000 рублей
2 место: 75 000 рублей
3 место: 50 000 рублей
Номинация Companion по задаче Защита: 50 000 рублей

Призовой фонд в рамках финального турнира:

1 место: 250 000 рублей
2 место: 150 000 рублей
3 место: 100 000 рублей
4 и 5 место: 75 000 рублей
Номинация Companion по задаче Защита: 50 000 рублей

Полезные статьи

Тема атак и защиты моделей машинного обучения в прикладных задач сейчас только начинает развиваться. Чтобы вы могли вдохновиться подходами и идеями, хотим поделиться с вами наиболее интересными статьями по теме, отобранными в ходе подготовки соревнования:

[Arxiv, 3 May 2022] Don't sweat the small stuff, classify the rest: Sample Shielding to protect text classifiers against adversarial attacks, Jonathan Rusert, Padmini Srinivasan
[Arxiv, 15 Jun 2021] Adversarial Attacks on Deep Models for Financial Transaction Records, Ivan Fursov, Matvey Morozov, Nina Kaploukhaya, Elizaveta Kovtun, Rodrigo Rivera-Castro, Gleb Gusev, Dmitry Babaev, Ivan Kireev, Alexey Zaytsev, Evgeny Burnaev
[Arxiv, 20 Nov 2019] Defense Methods Against Adversarial Examples for Recurrent Neural Networks, Ishai Rosenberg, Asaf Shabtai, Yuval Elovici, Lior Rokach
[Arxiv, 8 Apr 2016] Crafting Adversarial Input Sequences for Recurrent Neural Networks, Nicolas Papernot, Patrick McDaniel, Ananthram Swami, Richard Harang
[ICL Thesis, October 2021] Robustness against adversarial attacks on deep neural networks, Liu Yi-Ling

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy

Learn More