Ended 17 months ago
240 participants
1889 submissions

Hidden
2 этап профиля «Искусственный интеллект» НТО 2023/24 | Командная задача

В рамках этого сезона профиля «Искусственный интеллект» НТО участникам предстоит погрузиться в проблематику области и освоиться в работе с молекулами и их свойствами. Ведь в отличие от более привычных задач ИИ, здесь важно, помимо прочего, научить алгоритм учитывать законы природы с ее чрезвычайно сложной и порой неизвестной организацией, управляемой строгими, но не всегда применимыми на практике законами.

Описание задачи

Необходимо разработать алгоритм, предназначенный для направленного поиска молекул с заданными свойствами. Следуя практике научных исследований, оценка качества генерации будет проводиться для представительной выборки, а не отдельных соединений. Разнообразие, валидность, уникальность и соответствие заданному диапазону физико-химического свойства – целевые показатели для массива новых молекул, к максимизации которых вам следует стремиться.

Метрики

Оценка качества решения будет проводиться на основании комплексной величины, представляющей собой произведение четырех следующих метрик:

  • Доля молекул в сгенерированной выборке, для которых значение целевого свойства (липофильности) входит в заданный диапазон (2.0 < logP < 3.0). Оценка величины будет производиться с помощью модели, недоступной участникам.
  • Валидность (validity). Доля SMILES строк в сгенерированной выборке, соответствующих химически валидным молекулам.
  • Новизна (novelty). Доля SMILES строк в сгенерированной выборке, не входящих в исходную выборку, предоставленную участникам.
  • Разнообразие выборки (internal diversity).

Baseline

Вам доступно базовое решение от организаторов. Предполагаемый пайплайн работы включает в себя:

  1. Файл generate.py должен содержать функцию search_step(), которая принимает на вход список SMILES строк, и возвращает список той же длины, отличающийся от исходного не более чем на один элемент.
  2. Файл модель для оценки липофильности. Одна из составляющих метрики предполагает оценку данного параметра. Вы можете воспользоваться собственной моделью, обученной на индивидуальном этапе, или любой иной.

Стартовая выборка молекул, содержащаяся в файле check.csv, подвергается многократному обновлению посредством вызова функции search_step(). Итоговая выборка оценивается в точки зрения описанных метрик.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.