Ищем AI/ML Engineer (Voice AI & LLM) в US-based DeepTech компанию.

Brief description of the vacancy

Мы молодая и амбициозная AI Automation Agency из Laguna Beach (California). Наша цель создать лучшего в мире голосового ИИ-сотрудника для малого и среднего бизнеса. Мы не просто «клеим API», мы строим инференс-пайплайны на собственном железе для достижения человеческого уровня реакции.

Твои задачи:

Битва за Latency: Оптимизация пайплайна ASR -> LLM -> TTS до задержки менее 1200 мс.

Infrastructure: Развертывание и тюнинг инференса (vLLM, SGLang, TensorRT-LLM) на архитектуре Hopper.

Voice Engineering: Настройка потоковой передачи звука (WebSockets/WebRTC), работа с VAD и стриминговым TTS.

RAG & Agents: Реализация сложной логики агентов через LangGraph/LlamaIndex для работы с CRM и базами знаний.

Наш идеальный кандидат:

Имеет опыт работы с низкоуровневой оптимизацией (CUDA, Triton — огромный плюс).

Понимает специфику Voice AI (Whisper, потоковый синтез).

Умеет упаковывать сложные ML-решения в стабильный продакшн (Docker, FastAPI, MLOps).

Готов к быстрому темпу стартапа: от идеи до работающего MVP за недели, а не месяцы.

Что мы предлагаем:

Работа с самым топовым железом на рынке.

Прямое влияние на продукт и архитектуру.

Полная удаленка с возможностью релокации/командировок в Калифорнию в будущем.

Оплата в валюте.

В сопроводительном письме напиши, какой минимальный TTFT ты получал на Llama 3 70B и какими инструментами пользовался.

About the company

Company Arhiteq

Мы стартап на стыке реального бизнеса и high-tech ИИ. Мы вышли из индустрии профессиональных сервисов в CA и теперь масштабируем наши технологии автоматизации на весь рынок США. У нас есть доступ к капиталу, железу и реальным клиентам, готовым внедрять наши решения.

Responsibilities

Оптимизация задержек: Сведение Latency пайплайна ASR → LLM → TTS к минимуму (цель < 1000 мс).

Low-level Optimization: Написание и тюнинг кастомных ядер (Triton/CUDA), профилирование инференса (Nsight/PTX).

Инференс: Развертывание и настройка высокопроизводительных движков (vLLM, SGLang, TensorRT-LLM) на архитектуре Hopper.

Streaming & Voice: Работа с потоковой передачей аудио через WebSockets/WebRTC, настройка VAD и стримингового синтеза речи.

Архитектура: Проектирование асинхронной multi-agent логики взаимодействия с внешними API и CRM.

Requirements

Уровень: Senior (5+ лет в разработке, 2+ года в глубоком ML/LLM).

Deep Tech: Уверенное владение CUDA, Triton, PyTorch и понимание архитектуры современных LLM.

Voice Expertise: Практический опыт со STT (Whisper и аналоги) и TTS, понимание специфики работы с аудио-потоками в реальном времени.

Infrastructure: Опыт работы с GPU-инференсом в продакшене, Docker, асинхронным Python (FastAPI).

Soft Skills: Умение работать в режиме экстремального спринта (MVP за 4 недели) и самостоятельно принимать архитектурные решения.

Английский: Технический (чтение документации, базовая коммуникация).

Working conditions

Hardware: Доступ к мощностям NVIDIA H100 для твоих экспериментов и продакшена.

Локация: Полная удаленка. Мы находимся в часовом поясе Калифорнии (PDT), но готовы к гибкому графику.

Оплата: Конкурентная вилка в USD, обсуждается индивидуально по результатам интервью.

Перспективы: Возможность стать ключевым участником команды (Core Team) с опционами и потенциальными командировками/релокацией в Laguna Beach.

Никакой бюрократии: Прямое общение с основателями и фокус на результат.

Contacts

Log InOnly registered users can open employer contacts.

sd6d436f2b53d

Posted: