Прими участие в заключительном хакатоне этого года от Академии ИИ! Ты сможешь попасть в сообщество самых сильных специалистов по ИИ среди школьников, а еще выиграть реальные деньги уже в школе!
НТО2023ИИАкадемияИИолимпиадаИИХакатонИИ
Ежегодно в рецензируемых журналах выходят миллионы научных статей, обогащающих человеческие знания о природе веществ. Обработка этой информации – значительный шаг к формированию химических баз данных и построению моделей, предназначенных для предсказания разнообразных свойств соединений. Однако, ручной сбор практически невозможен из-за колоссальных объемов данных, а общие большие языковые модели испытывают проблемы с химической терминологией, аббревиатурами, таблицами и структурными формулами, зачастую представленными в виде изображений. В рамках заключительного хакатона Академии искусственного интеллекта для школьников, участникам предоставляется возможность погрузиться в увлекательный процесс разработки проекта для интерпретации химических формул. Задача – создать систему, способную распознавать изображения органических молекул и переводить их в формат SMILES, уникальный язык, преобразующий сложные химические соединения в легко читаемые текстовые строки.
Метрикой качества служит произведение двух величин: доли SMILES строк, которые соответствуют валидным молекулам, и средней схожести распознанных молекул с правильными по метрике Танимото. Обе величины изменяются от нуля до единицы, и задача участников получить максимальное значение.
Приведенный пример решения задачи распознавания малых органических молекул по их изображениям базируется на encoder-decoder ("кодировщик-декодировщик") системе. В качестве кодировщика используется ResNet сверточный слой, переводящий изображение в вектор фиксированной длины. Декодировщик представляет собой рекурентную нейронную сеть с LSTM механизмом внимания.
В качестве исходных данных для тренировки алгоритма предложены 100000 молекул из базы данных ChEMBL в виде SMILES строк и соответствующих 2D изображений. В рамках данного соревнования участниками также разрешается использовать любые химические базы данных и средства аугментации данных для расширения обучающего набора, если итоговое решение подходит под требования к формату, описанному ниже.
Решения запускаются в изолированном окружении при помощи Docker. Время и ресурсы во время тестирования ограничены. Модель должна принимать на вход путь к папке с изображениями и файлу indices.csv, содержащему колонку "id" с индексами изображений (изображения в папке именованы в формате индекс.расширение) Ответы, полученные моделью Участника, должны быть сохранены в файл predictions.csv, содержащий колонки "id" и “smiles”. Решения принимаются в виде zip-архива размером не более 5Gb, имеющего структуру:
В файле metadata.json должны быть два поля:
В течение одних суток Участник или Команда Участников может загрузить для оценки не более 5 решений.
Так как решение не имеет доступ к Интернету, все дополнительные данные, например, веса обученной модели, должны быть загружены в контейнер. В качестве примера организаторы предоставляют контейнер для запуска бейзлайн-решения.
Ресурсы для образа:
Время на исполнение - 45 минут:
Cookies help us deliver our services. By using our services, you agree to our use of cookies.