Разработчик мультимодальных VLM (visual language models)

Brief description of the vacancy

Мультимодальные модели — один из трендов в области глубокого обучения. Мы, команда компьютерного зрения, строим визуально-текстовые мультимодальные модели (visual language models, VLM). Они адаптируют большие языковые модели для работы не только с текстом, но и с изображениями. Мы ищем разработчиков, которые будут работать над нейросетями нового поколения и доводить свои решения до уровня готового продукта.

About the company

Company Яндекс

Команда R&D Яндекса работает над одной из самых передовых задач в области ML, находится на острие масштабных R&D-исследований и продуктовых внедрений, обучает базовую мультимодальную технологию c нуля, используя большое количество вычислительных ресурсов.

Responsibilities

Обучать большие языковые модели работать с визуальной информацией (изображениями и видео)

Вы будете работать на стыке двух областей: компьютерного зрения и обработки естественного языка. Для создания VLM используются нестандартные технические и архитектурные решения. Создавать большие дата-пайплайны, которые обрабатывают все данные интернета Для обучения VLM требуется очень много данных. Мы строим полноценные дата-пайплайны для сбора, обработки и фильтрации мультимодальных данных.

Оптимизировать large-scale-обучение моделей и ускорять их инференс

В процессе обучения VLM много нюансов. Чтобы сделать его эффективным, приходится много профилировать узкие места. А после обучения нужно подумать про то, как сделать быстрый инференс таких моделей.

Адаптировать модели к продуктовым требованиям

Наша цель — внедрить VLM в каждый сервис Яндекса. Для этого приходится учитывать специфику каждой задачи, а главное — адаптировать модель (как архитектурно, так и функционально) к конкретным требованиям.

Requirements

Мы ждем, что вы:

Понимаете, как работают современные архитектуры нейронных сетей
Знакомы с большими языковыми моделями
Работали с большими объёмами данных
Обучали модели глубокого обучения и внедряли их в продакшен
Следите за последними достижениями в областях компьютерного зрения и обработки естественного языка (понимаете, чем ViT отличается от ConvNeXt)

Working conditions

Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев.
А также: психотерапия в офисе или онлайн-сервисах; лазерная коррекция зрения через год работы; ведение беременности и роды — через два года. Страховка для родственников по системе 80/20 Мы оплачиваем 80% стоимости ДМС для детей и супругов, вы — остальные 20%
В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей.
Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей. Можете заниматься самостоятельно, а можете с корпоративным тренером.
А также: бесплатные онлайн-тренировки с FITMOST; скидки в фитнес-клубах, бассейнах, студиях йоги, скалодромах и других местах.
Гибкий график. У нас нет фиксированного времени начала и конца рабочего дня — работайте так, как удобно вам и вашей команде.
Льготная ставка на покупку жилья и улучшение жилищных условий — в зависимости от стажа, позиции и результатов ревью. Действует для сотрудников, работающих в российских офисах Яндекса.
Страхование, детские дни в офисе, подарки на рождение детей и чекапы при планировании беременности.

Contacts

b13da35b65c70

Posted:

Hidden
Разработчик мультимодальных VLM (visual language models)

Moderation Review

Brief description of the vacancy

About the company

Responsibilities

Requirements

Working conditions

Contacts

HiddenРазработчик мультимодальных VLM (visual language models)

Moderation Review

Brief description of the vacancy

About the company

Responsibilities

Requirements

Working conditions

Contacts

Hidden
Разработчик мультимодальных VLM (visual language models)