Ended 3 months ago
557 participants
2115 submissions

Хакатон Академии ИИ «Молекула»: призовой фонд – 1 000 000 рублей.

Прими участие в заключительном хакатоне этого года от Академии ИИ! Ты сможешь попасть в сообщество самых сильных специалистов по ИИ среди школьников, а еще выиграть реальные деньги уже в школе!

НТО2023ИИАкадемияИИолимпиадаИИХакатонИИ

Описание задачи

Ежегодно в рецензируемых журналах выходят миллионы научных статей, обогащающих человеческие знания о природе веществ. Обработка этой информации – значительный шаг к формированию химических баз данных и построению моделей, предназначенных для предсказания разнообразных свойств соединений. Однако, ручной сбор практически невозможен из-за колоссальных объемов данных, а общие большие языковые модели испытывают проблемы с химической терминологией, аббревиатурами, таблицами и структурными формулами, зачастую представленными в виде изображений. В рамках заключительного хакатона Академии искусственного интеллекта для школьников, участникам предоставляется возможность погрузиться в увлекательный процесс разработки проекта для интерпретации химических формул. Задача – создать систему, способную распознавать изображения органических молекул и переводить их в формат SMILES, уникальный язык, преобразующий сложные химические соединения в легко читаемые текстовые строки.

Метрика

Метрикой качества служит произведение двух величин: доли SMILES строк, которые соответствуют валидным молекулам, и средней схожести распознанных молекул с правильными по метрике Танимото. Обе величины изменяются от нуля до единицы, и задача участников получить максимальное значение.

Baseline

Приведенный пример решения задачи распознавания малых органических молекул по их изображениям базируется на encoder-decoder ("кодировщик-декодировщик") системе. В качестве кодировщика используется ResNet сверточный слой, переводящий изображение в вектор фиксированной длины. Декодировщик представляет собой рекурентную нейронную сеть с LSTM механизмом внимания.

Данные

В качестве исходных данных для тренировки алгоритма предложены 100000 молекул из базы данных ChEMBL в виде SMILES строк и соответствующих 2D изображений. В рамках данного соревнования участниками также разрешается использовать любые химические базы данных и средства аугментации данных для расширения обучающего набора, если итоговое решение подходит под требования к формату, описанному ниже.

Формат решений

Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Модель должна принимать на вход путь к папке с изображениями и файлу indices.csv, содержащему колонку "id" с индексами изображений (изображения в папке именованы в формате индекс.расширение) Ответы, полученные моделью Участника, должны быть сохранены в файл predictions.csv, содержащий колонки "id" и “smiles”. Решения принимаются в виде zip-архива размером не более 5Gb, имеющего структуру:

  • metadata.json
  • user_file_1
  • user_file_2
  • user_file_n

В файле metadata.json должны быть два поля:

  • image - публичный образ в DockerHub, например “odsai/nto23:5.0”
  • entry_point - команда для запуска в контейнере, например “python run.py”

В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений. 

Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.

Ресурсы для образа:

  • 8 vCPU
  • 96Gb RAM
  • Nvidia V100, 32Gb
  • 10Gb дискового пространства

Время на исполнение - 45 минут:

  • 5 минут на check - не учитывается в метрике
  • 20 минут на public
  • 20 минут на private

Cookies help us deliver our services. By using our services, you agree to our use of cookies.