Ключевой особенностью соревнования Data Fusion Contest 2023 – его турнирный формат. В соревновании есть 2 тесно связанные задачи: Атака и Защита. Можно участвовать в любой из них, в том числе в обеих задачах сразу. Обе задачи строятся на общих вводных и материалах:
В обеих задач используется один и тот же набор данных транзакций с разметкой;
В соревновании используется только один механизм атаки через искажение входных данных транзакций;
Модель для атаки является и мишенью в задаче Атаки, и отправной точкой в задаче Защиты;
Обе задачи работают с моделями бинарной классификации одной и той же целевой переменной (риск дефолта по кредиту).
Несмотря на схожесть по материалам, обе задачи имеют принципиальные отличия:
Формат решений: в задаче Атака формат решений – .csv файлы; в задаче Защита – архивы с моделями и кодом;
Метрики: в задаче Атака считается разница ROC-AUC относительно атакованной модели; в задаче Защита считается среднее гармоническое ROC-AUC на исходных и на атакованных данных.
Подходы: искать наилучшие правки в различные семейства моделей в противовес повышению устойчивости моделей.
Турниры
Если бы речь шла про обычный формат соревнований, то участники каждой из задач соревновались в первую очередь с материалами организаторов:
В задаче Атака – готовили атаки только против заранее подготовленной модели организаторов;
В задаче Защита – защищали модели от заранее подготовленных организаторами атак.
Чтобы участники соревновались друг с другом, в соревновании организуются турниры:
Суть турниров в том, что лучшие решения обеих задач запускаются друг против друга:
Решения задачи Атака теперь атакуют не модель организаторов, а решения из задачи Защита;
Решения задачи Защита теперь вместо атак организаторов запускаются на решениях из задачи Атака;
Турниров пройдет 2: промежуточный турнир в середине соревнования и финальный турнир в конце соревнования;
Весь призовой фонд присуждается по итогам турниров.
Для турниров будут использоваться отдельные новые наборы данных, подобно тому, как решения запускаются на приватных тестовых данных. Данные будут иметь тот же формат и размер, чтобы решения задачи Защиты корректно работали на решениях задачи Атака на новых данных.
Проведение турнира
Чтобы турниры можно было провести за разумное время, для участия в турнирах происходит отбор 10 команд с лучшими результатами на лидербордах каждой из задач. Проведение турнира выглядит следующим образом:
В турниры отбираются по 10 команд из каждой задачи (итого 20 команд);
От каждой отобранной команды участвует два решения (итого 40 решений);
Каждое решение одной задачи запускается против каждого решения второй задачи (итого 20*20 = 400 запусков);
Для каждого решения считаются те же метрики, что и в задаче этого решения: разность ROC-AUC для Атаки и среднее гармоническое ROC-AUC для Защиты;
Для каждого из решений команды результатом этого решения является обычное среднее по 20 запускам против всех решений противоположной задачи;
Итоговым результатом каждой команды является лучшее из двух их решений;
После окончания каждого турнира, в каждой из задач публикуется по новому лидерборду с результатами турнира тех, кто в нем участвовал: отдельный лидерборд в задаче Атака (с 10 участникам турнира из задачи Атака) и отдельный лидерборд в задаче Защита (с 10 участникам турнира из задачи Защита).
(patchnote) По итогам первого Турнира введена поправка на “самострел”. Если одна и та же команда участвует в Турнире со стороны обеих задач, результаты обоих решений на совпавших парах не учитываются при подсчете среднего результата по этим решениям (пункт 5).
Участие в турнирах
Чтобы попасть на турнир необходимо выполнение двух условий:
(общее) Ваша команда попала в топ-10 на лидерборде, используемом для отбора на турнир. Для промежуточного турнира это топ-10 по публичному лидерборду задач по состоянию на 06.03.2023 0:00 (московское время). Для финального турнира это топ-10 по приватному лидерборду задач по состоянию на 03.04.2023 12:00 (московское время).
(только для задачи Атака) Если ваша команда попала в топ-10, необходимо запустить выбранные решения на новых турнирных данных. Данные будут переданы напрямую представителями организатора. Запустить решения и передать результат необходимо в течение 24 часов. Это необходимо сделать в обоих турнирах.
Со стороны участников задачи Защита никаких дополнительных действий не требуется.
Общий таймлайн соревнования и турниров выглядит следующим образом:
Cookies help us deliver our services. By using our services, you agree to our use of cookies.