Ended 17 months ago
566 participants
2115 submissions

Хакатон Академии ИИ «Молекула»: призовой фонд – 1 000 000 рублей.

Прими участие в заключительном хакатоне этого года от Академии ИИ! Ты сможешь попасть в сообщество самых сильных специалистов по ИИ среди школьников, а еще выиграть реальные деньги уже в школе!

НТО2023ИИАкадемияИИолимпиадаИИХакатонИИ

Описание задачи

Ежегодно в рецензируемых журналах выходят миллионы научных статей, обогащающих человеческие знания о природе веществ. Обработка этой информации – значительный шаг к формированию химических баз данных и построению моделей, предназначенных для предсказания разнообразных свойств соединений. Однако, ручной сбор практически невозможен из-за колоссальных объемов данных, а общие большие языковые модели испытывают проблемы с химической терминологией, аббревиатурами, таблицами и структурными формулами, зачастую представленными в виде изображений. В рамках заключительного хакатона Академии искусственного интеллекта для школьников, участникам предоставляется возможность погрузиться в увлекательный процесс разработки проекта для интерпретации химических формул. Задача – создать систему, способную распознавать изображения органических молекул и переводить их в формат SMILES, уникальный язык, преобразующий сложные химические соединения в легко читаемые текстовые строки.

Метрика

Метрикой качества служит произведение двух величин: доли SMILES строк, которые соответствуют валидным молекулам, и средней схожести распознанных молекул с правильными по метрике Танимото. Обе величины изменяются от нуля до единицы, и задача участников получить максимальное значение.

Baseline

Приведенный пример решения задачи распознавания малых органических молекул по их изображениям базируется на encoder-decoder ("кодировщик-декодировщик") системе. В качестве кодировщика используется ResNet сверточный слой, переводящий изображение в вектор фиксированной длины. Декодировщик представляет собой рекурентную нейронную сеть с LSTM механизмом внимания.

Данные

В качестве исходных данных для тренировки алгоритма предложены 100000 молекул из базы данных ChEMBL в виде SMILES строк и соответствующих 2D изображений. В рамках данного соревнования участниками также разрешается использовать любые химические базы данных и средства аугментации данных для расширения обучающего набора, если итоговое решение подходит под требования к формату, описанному ниже.

Формат решений

Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Модель должна принимать на вход путь к папке с изображениями и файлу indices.csv, содержащему колонку "id" с индексами изображений (изображения в папке именованы в формате индекс.расширение) Ответы, полученные моделью Участника, должны быть сохранены в файл predictions.csv, содержащий колонки "id" и “smiles”. Решения принимаются в виде zip-архива размером не более 5Gb, имеющего структуру:

  • metadata.json
  • user_file_1
  • user_file_2
  • user_file_n

В файле metadata.json должны быть два поля:

  • image - публичный образ в DockerHub, например “odsai/nto23:5.0”
  • entry_point - команда для запуска в контейнере, например “python run.py”

В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений. 

Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.

Ресурсы для образа:

  • 8 vCPU
  • 96Gb RAM
  • Nvidia V100, 32Gb
  • 10Gb дискового пространства

Время на исполнение - 45 минут:

  • 5 минут на check - не учитывается в метрике
  • 20 минут на public
  • 20 минут на private

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy