Senior ML Engineer (TTS)

Работодатель:

Sasha AI

Зарплата:

650 000 - 900 000 руб.

Опыт работы:

От 3 до 6 лет

Место работы:

Москва

Добрый день!

Компания Sasha AI - текущие резиденты Сколково, пионер в разработке голосовых AI-агентов для бизнеса. Мы развиваем лидогенерационную платформу, которая позволяет компаниям за 20 минут запустить искусственный интеллект, способный генерировать лидов работая с клиентской базой по телефону. Наши AI-агенты уже помогают таким компаниям как МТС, Т-Банк, Синергия увеличивать выручку без найма сотрудников.

За последний год мы выросли в 5 раз и достигнем оборота в 300 млн рублей в 2026 году.

Наша маленькая цель - сделать технологию простой, окупаемой и доступной каждому крупному бизнесу в России.

Наша большая цель - за 10 лет построить монополиста, ассоциирующегося с искусственным интеллектом в России.

Сейчас ищем ML-инженера, который будет развивать у нас TTS — собственный стек синтеза речи, быстрый и естественный, чтобы звучал неотличимо от живого оператора.

Как у нас все устроено:

маленькая команда, общаемся в тг и на созвонах, иногда встречаемся офлайн;
работать можно в удобное время
задачи короткие: гипотеза → эксперимент → метрики → прод;
продукт живой, результат своей работы слышно в реальных звонках уже через пару дней;
решения принимаем быстро, без согласований на три недели;
если модель обогнала прод — катим.

Данных с реальных звонков много, разметка и подсчёт метрик постепенно автоматизируются. Есть бюджет на GPU и эксперименты.

Обязанности:

улучшать модели синтеза;
обгонять текущий прод по метрикам (MOS, CMOS, SBS, латенси);
помогать внедрять модели в рантайм;
снижать TTFB и общую задержку — для телефонии это критично;
заниматься проектами: voice cloning, управление интонациями, эмоциями, стриминг, low-resource;
фантазировать, экспериментировать, читать статьи;
рассказывать о найденном команде и в блоге.

Требования:

python, алгоритмы, математика;
знания в DL, особенно про звук;
опыт обучения моделей для прода;
понимание современных TTS-архитектур (FastSpeech, VALL-E, XTTS, F5, CosyVoice и т.п.);
кругозор (nlp, лингвистика, фонетика, DSP — всё, что имеет отношение к речи).

Будет плюсом:

c++;
опыт оптимизации инференса (ONNX, TensorRT, квантизация, стриминг);
опыт с реалтайм-аудио и телефонией (8 kHz, кодеки);
публикации, pet-проекты, open-source.

Условия:

задачи, по которым в рунете мало кто имеет опыт;
небольшая команда без бюрократии;
фидбек и возможность увидеть результаты своей работы в продукте сразу;
оформление по ТК РФ, ИП или самозанятость — как удобно;
удалёнка, гибкий график;
зарплата обсуждается на интервью.

Если откликается — напишите пару слов о себе и приложите резюме. Будет здорово увидеть ссылки на демо синтеза, который вы обучали, GitHub или статьи.

Senior ML Engineer (TTS)

Похожие вакансии

Популярные профессии