Ищем AI/ML Engineer (Voice AI & LLM) в US-based DeepTech компанию.

$4,0008,000/month
Remote
Full-time

ML engineerPythonPyTorchLLMTTSASRNLPVoice AIFastAPIMLOpsRAGCUDATritonTensorRTWebRTC

Brief description of the vacancy

Мы молодая и амбициозная AI Automation Agency из Laguna Beach (California). Наша цель создать лучшего в мире голосового ИИ-сотрудника для малого и среднего бизнеса. Мы не просто «клеим API», мы строим инференс-пайплайны на собственном железе для достижения человеческого уровня реакции.

Твои задачи:

Битва за Latency: Оптимизация пайплайна ASR -> LLM -> TTS до задержки менее 1200 мс.

Infrastructure: Развертывание и тюнинг инференса (vLLM, SGLang, TensorRT-LLM) на архитектуре Hopper.

Voice Engineering: Настройка потоковой передачи звука (WebSockets/WebRTC), работа с VAD и стриминговым TTS.

RAG & Agents: Реализация сложной логики агентов через LangGraph/LlamaIndex для работы с CRM и базами знаний.

Наш идеальный кандидат:

Имеет опыт работы с низкоуровневой оптимизацией (CUDA, Triton — огромный плюс).

Понимает специфику Voice AI (Whisper, потоковый синтез).

Умеет упаковывать сложные ML-решения в стабильный продакшн (Docker, FastAPI, MLOps).

Готов к быстрому темпу стартапа: от идеи до работающего MVP за недели, а не месяцы.

Что мы предлагаем:

Работа с самым топовым железом на рынке.

Прямое влияние на продукт и архитектуру.

Полная удаленка с возможностью релокации/командировок в Калифорнию в будущем.

Оплата в валюте.

В сопроводительном письме напиши, какой минимальный TTFT ты получал на Llama 3 70B и какими инструментами пользовался.

About the company

Company Arhiteq

Мы стартап на стыке реального бизнеса и high-tech ИИ. Мы вышли из индустрии профессиональных сервисов в CA и теперь масштабируем наши технологии автоматизации на весь рынок США. У нас есть доступ к капиталу, железу и реальным клиентам, готовым внедрять наши решения.

Responsibilities

Оптимизация задержек: Сведение Latency пайплайна ASR → LLM → TTS к минимуму (цель < 1000 мс).

Low-level Optimization: Написание и тюнинг кастомных ядер (Triton/CUDA), профилирование инференса (Nsight/PTX).

Инференс: Развертывание и настройка высокопроизводительных движков (vLLM, SGLang, TensorRT-LLM) на архитектуре Hopper.

Streaming & Voice: Работа с потоковой передачей аудио через WebSockets/WebRTC, настройка VAD и стримингового синтеза речи.

Архитектура: Проектирование асинхронной multi-agent логики взаимодействия с внешними API и CRM.

Requirements

Уровень: Senior (5+ лет в разработке, 2+ года в глубоком ML/LLM).

Deep Tech: Уверенное владение CUDA, Triton, PyTorch и понимание архитектуры современных LLM.

Voice Expertise: Практический опыт со STT (Whisper и аналоги) и TTS, понимание специфики работы с аудио-потоками в реальном времени.

Infrastructure: Опыт работы с GPU-инференсом в продакшене, Docker, асинхронным Python (FastAPI).

Soft Skills: Умение работать в режиме экстремального спринта (MVP за 4 недели) и самостоятельно принимать архитектурные решения.

Английский: Технический (чтение документации, базовая коммуникация).

Working conditions

Hardware: Доступ к мощностям NVIDIA H100 для твоих экспериментов и продакшена.

Локация: Полная удаленка. Мы находимся в часовом поясе Калифорнии (PDT), но готовы к гибкому графику.

Оплата: Конкурентная вилка в USD, обсуждается индивидуально по результатам интервью.

Перспективы: Возможность стать ключевым участником команды (Core Team) с опционами и потенциальными командировками/релокацией в Laguna Beach.

Никакой бюрократии: Прямое общение с основателями и фокус на результат.

Contacts

Log InOnly registered users can open employer contacts.

Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy