Ended 18 months ago

Легенда

Ключевой особенностью соревнования Data Fusion Contest 2023 – его турнирный формат. В соревновании есть 2 тесно связанные задачи: Атака и Защита. Можно участвовать в любой из них, в том числе в обеих задачах сразу. Обе задачи строятся на общих вводных и материалах:

  1. В обеих задач используется один и тот же набор данных транзакций с разметкой;
  2. В соревновании используется только один механизм атаки через искажение входных данных транзакций;
  3. Модель для атаки является и мишенью в задаче Атаки, и отправной точкой в задаче Защиты;
  4. Обе задачи работают с моделями бинарной классификации одной и той же целевой переменной (риск дефолта по кредиту).

Несмотря на схожесть по материалам, обе задачи имеют принципиальные отличия:

  1. Формат решений: в задаче Атака формат решений – .csv файлы; в задаче Защита – архивы с моделями и кодом;
  2. Метрики: в задаче Атака считается разница ROC-AUC относительно атакованной модели; в задаче Защита считается среднее гармоническое ROC-AUC на исходных и на атакованных данных.
  3. Подходы: искать наилучшие правки в различные семейства моделей в противовес повышению устойчивости моделей.

Турниры

Если бы речь шла про обычный формат соревнований, то участники каждой из задач соревновались в первую очередь с материалами организаторов:

  • В задаче Атака – готовили атаки только против заранее подготовленной модели организаторов;
  • В задаче Защита – защищали модели от заранее подготовленных организаторами атак.

Чтобы участники соревновались друг с другом, в соревновании организуются турниры:

Суть турниров в том, что лучшие решения обеих задач запускаются друг против друга:

  • Решения задачи Атака теперь атакуют не модель организаторов, а решения из задачи Защита;
  • Решения задачи Защита теперь вместо атак организаторов запускаются на решениях из задачи Атака;
  • Турниров пройдет 2: промежуточный турнир в середине соревнования и финальный турнир в конце соревнования;
  • Весь призовой фонд присуждается по итогам турниров.

Для турниров будут использоваться отдельные новые наборы данных, подобно тому, как решения запускаются на приватных тестовых данных. Данные будут иметь тот же формат и размер, чтобы решения задачи Защиты корректно работали на решениях задачи Атака на новых данных. 

Проведение турнира

Чтобы турниры можно было провести за разумное время, для участия в турнирах происходит отбор 10 команд с лучшими результатами на лидербордах каждой из задач. Проведение турнира выглядит следующим образом:

  1. В турниры отбираются по 10 команд из каждой задачи (итого 20 команд);
  2. От каждой отобранной команды участвует два решения (итого 40 решений);
  3. Каждое решение одной задачи запускается против каждого решения второй задачи (итого 20*20 = 400 запусков);
  4. Для каждого решения считаются те же метрики, что и в задаче этого решения: разность ROC-AUC для Атаки и среднее гармоническое ROC-AUC для Защиты;
  5. Для каждого из решений команды результатом этого решения является обычное среднее по 20 запускам против всех решений противоположной задачи;
  6. Итоговым результатом каждой команды является лучшее из двух их решений;
  7. После окончания каждого турнира, в каждой из задач публикуется по новому лидерборду с результатами турнира тех, кто в нем участвовал: отдельный лидерборд в задаче Атака (с 10 участникам турнира из задачи Атака) и отдельный лидерборд в задаче Защита (с 10 участникам турнира из задачи Защита).
  8. (patchnote) 
    По итогам первого Турнира введена поправка на “самострел”. Если одна и та же команда участвует в Турнире со стороны обеих задач, результаты обоих решений на совпавших парах не учитываются при подсчете среднего результата по этим решениям (пункт 5). 

Участие в турнирах

Чтобы попасть на турнир необходимо выполнение двух условий:

  1. (общее) Ваша команда попала в топ-10 на лидерборде, используемом для отбора на турнир. Для промежуточного турнира это топ-10 по публичному лидерборду задач по состоянию на 06.03.2023 0:00 (московское время). Для финального турнира это топ-10 по приватному лидерборду задач по состоянию на 03.04.2023 12:00 (московское время).
  2. (только для задачи Атака) Если ваша команда попала в топ-10, необходимо запустить выбранные решения на новых турнирных данных. Данные будут переданы напрямую представителями организатора. Запустить решения и передать результат необходимо в течение 24 часов. Это необходимо сделать в обоих турнирах.

    Со стороны участников задачи Защита никаких дополнительных действий не требуется.

Общий таймлайн соревнования и турниров выглядит следующим образом:

Cookies help us deliver our services. By using our services, you agree to our use of cookies.