ML Engineer — Omnimodal Full-Duplex

Работодатель:
График работы:
Полный день
Занятость:
Полная занятость
Опыт работы:
От 3 до 6 лет

Ищем Middle / Senior ML Engineer / Researcher в исследовательскую команду для разработки

омнимодального Full-Duplex — архитектуры, которая слышит, говорит, нативно понимает

перебивания и одновременно работает с аудио, текстом и визуальной информацией в реальном

времени.

Обязанности

  • разработка full-duplex мультимодальных архитектур: одновременное восприятие и генерация речи
  • обработка перебиваний, пауз и естественного диалога в реальном времени
  • интеграция речи, текста и визуальных модальностей в единую архитектуру
  • мультимодальный reasoning и синхронизация потоков (audio–text–vision)
  • обучение и оптимизация моделей для низкой латентности и стриминга
  • исследование и имплементация state-of-the-art подходов (end-to-end, streaming transformers, multimodal LLMs)

Требования

  • отличный Python 3, опыт с PyTorch, bash, git, Docker, dvc, HF Transformers
  • хорошее понимание ASR, TTS, DSP ML, speech & audio processing
  • понимание трансформеров, attention-механизмов, KV-cache, diffusion
  • навыки работы с большими датасетами аудио
  • опыт работы с streaming / real-time системами
  • понимание MLOps-практик: мониторинг моделей, дрейф данных, CI/CD
  • умение быстро разбирать и воспроизводить идеи из научных статей

Условия

  • опыт работы в доменах речи, музыки или с голосовыми ассистентами
  • знание мультимодальных LLM / VLM / Audio-LM
  • публикации или исследовательский бэкграунд