ML / Research Engineer (Compression)

RUB 180,000250,000/month
Remote or office
Project

#ResearchEngineer #ModelCompression #Quantization #Pruning #LowBitML #LLMCompression

Brief description of the vacancy

Ищем Research Engineer, которые умеют сжимать модели — квантизация, прунинг. Задачи — на стыке инженерии и ресёрча: формулировка и тестирование гипотез, улучшение SOTA-подходов, упаковка и поставка итоговых решений. Формат участия — через MIL Talent Pool: подключим, когда появится подходящая задача.

About the company

Company MIL Team (Лаборатория машинного интеллекта, МФТИ)

MIL Team — команда прикладных ML-исследователей. Делаем AI-продукты (например, compressa.ai) и ресёрч-проекты с индустриальными партнёрами, например, Huawei, Samsung, Сбер.

Публикуемся на топовых конференциях, развиваем собственную инфраструктуру, строим команду с инженерным мышлением и научной глубиной.

Responsibilities

  • Реализовывать и тестировать методы сжатия: квантизация (в том числе low-bit подходы), прунинг, structured sparsity, tensor decomposition.
  • Настраивать фреймворк для экспериментов: метрики, пайплайны, логирование.
  • Анализировать влияние сжатия на качество и поведение модели.
  • Участвовать в подготовке публикаций и внутренней документации по результатам работы.

Requirements

  • На хорошем уровне Python (PyTorch), Git.
  • Понимание архитектуры языковых моделей, основанных на трансформерах (LLaMA), принципов их работы (механизм внимания; prefill, decode фазы).
  • Знание методов сжатия DL-моделей: per-channel/per-tensor weight quantization (AWQ, GPTQ, HQQ), методы, упрощающие квантизацию активаций (LLM.int8(), SmoothQuant, QuaRot), методы выбора важных (salient) весов при прунинге/спарсификации (SpQR, Wanda, FLAP).
  • Опыт реализации и адаптации low-bit и pruning-подходов.
  • Умение писать чистый, модульный и воспроизводимый код.
  • Понимание, как оценивать влияние сжатия на метрики и поведение модели.

➕ Будет плюсом

  • Наличие статей или препринтов.
  • Участие в ML-конференциях.
  • Опыт работы с vLLM и LLM Compressor.

Working conditions

  • Удалёнка из любой точки мира.
  • Команда, у которой точно можно многому научиться.
  • Динамичная среда: быстрые гипотезы, короткий цикл принятия решений.
  • Возможность расти: хочешь вести трек — поддержим, хочешь делать демку — подключим.

Contacts

Log InOnly registered users can open employer contacts.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy