In the archive
Мультимодальные модели — один из трендов в области глубокого обучения. Мы, команда компьютерного зрения, строим визуально-текстовые мультимодальные модели (visual language models, VLM). Они адаптируют большие языковые модели для работы не только с текстом, но и с изображениями. Мы ищем разработчиков, которые будут работать над нейросетями нового поколения и доводить свои решения до уровня готового продукта.
Company Яндекс
Команда R&D Яндекса работает над одной из самых передовых задач в области ML, находится на острие масштабных R&D-исследований и продуктовых внедрений, обучает базовую мультимодальную технологию c нуля, используя большое количество вычислительных ресурсов.
Обучать большие языковые модели работать с визуальной информацией (изображениями и видео)
Вы будете работать на стыке двух областей: компьютерного зрения и обработки естественного языка. Для создания VLM используются нестандартные технические и архитектурные решения. Создавать большие дата-пайплайны, которые обрабатывают все данные интернета Для обучения VLM требуется очень много данных. Мы строим полноценные дата-пайплайны для сбора, обработки и фильтрации мультимодальных данных.
Оптимизировать large-scale-обучение моделей и ускорять их инференс
В процессе обучения VLM много нюансов. Чтобы сделать его эффективным, приходится много профилировать узкие места. А после обучения нужно подумать про то, как сделать быстрый инференс таких моделей.
Адаптировать модели к продуктовым требованиям
Наша цель — внедрить VLM в каждый сервис Яндекса. Для этого приходится учитывать специфику каждой задачи, а главное — адаптировать модель (как архитектурно, так и функционально) к конкретным требованиям.
Мы ждем, что вы:
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy