Работодатель:
Зарплата:
650 000 - 900 000 руб.
Опыт работы:
От 3 до 6 лет
Место работы:
Москва

Добрый день!

Компания Sasha AI - текущие резиденты Сколково, пионер в разработке голосовых AI-агентов для бизнеса. Мы развиваем лидогенерационную платформу, которая позволяет компаниям за 20 минут запустить искусственный интеллект, способный генерировать лидов работая с клиентской базой по телефону. Наши AI-агенты уже помогают таким компаниям как МТС, Т-Банк, Синергия увеличивать выручку без найма сотрудников.

За последний год мы выросли в 5 раз и достигнем оборота в 300 млн рублей в 2026 году.

Наша маленькая цель - сделать технологию простой, окупаемой и доступной каждому крупному бизнесу в России.

Наша большая цель - за 10 лет построить монополиста, ассоциирующегося с искусственным интеллектом в России.

Сейчас ищем ML-инженера, который будет развивать у нас TTS — собственный стек синтеза речи, быстрый и естественный, чтобы звучал неотличимо от живого оператора.

Как у нас все устроено:

  • маленькая команда, общаемся в тг и на созвонах, иногда встречаемся офлайн;
  • работать можно в удобное время
  • задачи короткие: гипотеза → эксперимент → метрики → прод;
  • продукт живой, результат своей работы слышно в реальных звонках уже через пару дней;
  • решения принимаем быстро, без согласований на три недели;
  • если модель обогнала прод — катим.

Данных с реальных звонков много, разметка и подсчёт метрик постепенно автоматизируются. Есть бюджет на GPU и эксперименты.

Обязанности:

  • улучшать модели синтеза;
  • обгонять текущий прод по метрикам (MOS, CMOS, SBS, латенси);
  • помогать внедрять модели в рантайм;
  • снижать TTFB и общую задержку — для телефонии это критично;
  • заниматься проектами: voice cloning, управление интонациями, эмоциями, стриминг, low-resource;
  • фантазировать, экспериментировать, читать статьи;
  • рассказывать о найденном команде и в блоге.

Требования:

  • python, алгоритмы, математика;
  • знания в DL, особенно про звук;
  • опыт обучения моделей для прода;
  • понимание современных TTS-архитектур (FastSpeech, VALL-E, XTTS, F5, CosyVoice и т.п.);
  • кругозор (nlp, лингвистика, фонетика, DSP — всё, что имеет отношение к речи).

Будет плюсом:

  • c++;
  • опыт оптимизации инференса (ONNX, TensorRT, квантизация, стриминг);
  • опыт с реалтайм-аудио и телефонией (8 kHz, кодеки);
  • публикации, pet-проекты, open-source.

Условия:

  • задачи, по которым в рунете мало кто имеет опыт;
  • небольшая команда без бюрократии;
  • фидбек и возможность увидеть результаты своей работы в продукте сразу;
  • оформление по ТК РФ, ИП или самозанятость — как удобно;
  • удалёнка, гибкий график;
  • зарплата обсуждается на интервью.

Если откликается — напишите пару слов о себе и приложите резюме. Будет здорово увидеть ссылки на демо синтеза, который вы обучали, GitHub или статьи.

Похожие вакансии

Старший графический дизайнер со знанием английского языка
Zebra Corporate Communications

Опыт работы над многостраничными изданиями от 5-ти лет. Ожидаемый уровень английского не ниже С1. Владение Photoshop, Illustrator, InDesign...

Senior product manager (Health&Fitness)
Физикл

Мы ищем человека с опытом в продукте от 3 лет, который проходил полный цикл — от идеи до работающего продукта и...

Senior Sales Manager / Менеджер по развитию Интернет-эквайринга
Uniteller

Технарь в душе – техническое образование будет плюсом. Имеешь навыки работы с искусственным интеллектом.

Virtualization & Backup Engineer (Иностранный банк)
Цифровые привычки

Опыт работы с VMware vSphere/ESXi (от 2–3 лет). Глубокое знание принципов виртуализации, сетевой и дисковой подсистем виртуальных машин.

Middle DevOps Engineer
Экваил

Гибкий процесс: Kanban, регулярные код-ревью. Технологический стек: Ansible, Linux, AWX. ClickHouse, PostgreSQL, Tarantool, Aerospike. Python, Golang. GitLab, Grafana, Prometheus...