Ended 2 years ago

Легенда

Ключевой особенностью соревнования Data Fusion Contest 2023 – его турнирный формат. В соревновании есть 2 тесно связанные задачи: Атака и Защита. Можно участвовать в любой из них, в том числе в обеих задачах сразу. Обе задачи строятся на общих вводных и материалах:

  1. В обеих задач используется один и тот же набор данных транзакций с разметкой;
  2. В соревновании используется только один механизм атаки через искажение входных данных транзакций;
  3. Модель для атаки является и мишенью в задаче Атаки, и отправной точкой в задаче Защиты;
  4. Обе задачи работают с моделями бинарной классификации одной и той же целевой переменной (риск дефолта по кредиту).

Несмотря на схожесть по материалам, обе задачи имеют принципиальные отличия:

  1. Формат решений: в задаче Атака формат решений – .csv файлы; в задаче Защита – архивы с моделями и кодом;
  2. Метрики: в задаче Атака считается разница ROC-AUC относительно атакованной модели; в задаче Защита считается среднее гармоническое ROC-AUC на исходных и на атакованных данных.
  3. Подходы: искать наилучшие правки в различные семейства моделей в противовес повышению устойчивости моделей.

Турниры

Если бы речь шла про обычный формат соревнований, то участники каждой из задач соревновались в первую очередь с материалами организаторов:

  • В задаче Атака – готовили атаки только против заранее подготовленной модели организаторов;
  • В задаче Защита – защищали модели от заранее подготовленных организаторами атак.

Чтобы участники соревновались друг с другом, в соревновании организуются турниры:

Суть турниров в том, что лучшие решения обеих задач запускаются друг против друга:

  • Решения задачи Атака теперь атакуют не модель организаторов, а решения из задачи Защита;
  • Решения задачи Защита теперь вместо атак организаторов запускаются на решениях из задачи Атака;
  • Турниров пройдет 2: промежуточный турнир в середине соревнования и финальный турнир в конце соревнования;
  • Весь призовой фонд присуждается по итогам турниров.

Для турниров будут использоваться отдельные новые наборы данных, подобно тому, как решения запускаются на приватных тестовых данных. Данные будут иметь тот же формат и размер, чтобы решения задачи Защиты корректно работали на решениях задачи Атака на новых данных. 

Проведение турнира

Чтобы турниры можно было провести за разумное время, для участия в турнирах происходит отбор 10 команд с лучшими результатами на лидербордах каждой из задач. Проведение турнира выглядит следующим образом:

  1. В турниры отбираются по 10 команд из каждой задачи (итого 20 команд);
  2. От каждой отобранной команды участвует два решения (итого 40 решений);
  3. Каждое решение одной задачи запускается против каждого решения второй задачи (итого 20*20 = 400 запусков);
  4. Для каждого решения считаются те же метрики, что и в задаче этого решения: разность ROC-AUC для Атаки и среднее гармоническое ROC-AUC для Защиты;
  5. Для каждого из решений команды результатом этого решения является обычное среднее по 20 запускам против всех решений противоположной задачи;
  6. Итоговым результатом каждой команды является лучшее из двух их решений;
  7. После окончания каждого турнира, в каждой из задач публикуется по новому лидерборду с результатами турнира тех, кто в нем участвовал: отдельный лидерборд в задаче Атака (с 10 участникам турнира из задачи Атака) и отдельный лидерборд в задаче Защита (с 10 участникам турнира из задачи Защита).
  8. (patchnote) 
    По итогам первого Турнира введена поправка на “самострел”. Если одна и та же команда участвует в Турнире со стороны обеих задач, результаты обоих решений на совпавших парах не учитываются при подсчете среднего результата по этим решениям (пункт 5). 

Участие в турнирах

Чтобы попасть на турнир необходимо выполнение двух условий:

  1. (общее) Ваша команда попала в топ-10 на лидерборде, используемом для отбора на турнир. Для промежуточного турнира это топ-10 по публичному лидерборду задач по состоянию на 06.03.2023 0:00 (московское время). Для финального турнира это топ-10 по приватному лидерборду задач по состоянию на 03.04.2023 12:00 (московское время).
  2. (только для задачи Атака) Если ваша команда попала в топ-10, необходимо запустить выбранные решения на новых турнирных данных. Данные будут переданы напрямую представителями организатора. Запустить решения и передать результат необходимо в течение 24 часов. Это необходимо сделать в обоих турнирах.

    Со стороны участников задачи Защита никаких дополнительных действий не требуется.

Общий таймлайн соревнования и турниров выглядит следующим образом:

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy