Добрый день!
Компания Sasha AI - текущие резиденты Сколково, пионер в разработке голосовых AI-агентов для бизнеса. Мы развиваем лидогенерационную платформу, которая позволяет компаниям за 20 минут запустить искусственный интеллект, способный генерировать лидов работая с клиентской базой по телефону. Наши AI-агенты уже помогают таким компаниям как МТС, Т-Банк, Синергия увеличивать выручку без найма сотрудников.
За последний год мы выросли в 5 раз и достигнем оборота в 300 млн рублей в 2026 году.
Наша маленькая цель - сделать технологию простой, окупаемой и доступной каждому крупному бизнесу в России.
Наша большая цель - за 10 лет построить монополиста, ассоциирующегося с искусственным интеллектом в России.
Сейчас ищем ML-инженера, который будет развивать у нас TTS — собственный стек синтеза речи, быстрый и естественный, чтобы звучал неотличимо от живого оператора.
Как у нас все устроено:
- маленькая команда, общаемся в тг и на созвонах, иногда встречаемся офлайн;
- работать можно в удобное время
- задачи короткие: гипотеза → эксперимент → метрики → прод;
- продукт живой, результат своей работы слышно в реальных звонках уже через пару дней;
- решения принимаем быстро, без согласований на три недели;
- если модель обогнала прод — катим.
Данных с реальных звонков много, разметка и подсчёт метрик постепенно автоматизируются. Есть бюджет на GPU и эксперименты.
Обязанности:
- улучшать модели синтеза;
- обгонять текущий прод по метрикам (MOS, CMOS, SBS, латенси);
- помогать внедрять модели в рантайм;
- снижать TTFB и общую задержку — для телефонии это критично;
- заниматься проектами: voice cloning, управление интонациями, эмоциями, стриминг, low-resource;
- фантазировать, экспериментировать, читать статьи;
- рассказывать о найденном команде и в блоге.
Требования:
- python, алгоритмы, математика;
- знания в DL, особенно про звук;
- опыт обучения моделей для прода;
- понимание современных TTS-архитектур (FastSpeech, VALL-E, XTTS, F5, CosyVoice и т.п.);
- кругозор (nlp, лингвистика, фонетика, DSP — всё, что имеет отношение к речи).
Будет плюсом:
- c++;
- опыт оптимизации инференса (ONNX, TensorRT, квантизация, стриминг);
- опыт с реалтайм-аудио и телефонией (8 kHz, кодеки);
- публикации, pet-проекты, open-source.
Условия:
- задачи, по которым в рунете мало кто имеет опыт;
- небольшая команда без бюрократии;
- фидбек и возможность увидеть результаты своей работы в продукте сразу;
- оформление по ТК РФ, ИП или самозанятость — как удобно;
- удалёнка, гибкий график;
- зарплата обсуждается на интервью.
Если откликается — напишите пару слов о себе и приложите резюме. Будет здорово увидеть ссылки на демо синтеза, который вы обучали, GitHub или статьи.
Похожие вакансии
Опыт работы над многостраничными изданиями от 5-ти лет. Ожидаемый уровень английского не ниже С1. Владение Photoshop, Illustrator, InDesign...
Мы ищем человека с опытом в продукте от 3 лет, который проходил полный цикл — от идеи до работающего продукта и...
Технарь в душе – техническое образование будет плюсом. Имеешь навыки работы с искусственным интеллектом.
Опыт работы с VMware vSphere/ESXi (от 2–3 лет). Глубокое знание принципов виртуализации, сетевой и дисковой подсистем виртуальных машин.
Гибкий процесс: Kanban, регулярные код-ревью. Технологический стек: Ansible, Linux, AWX. ClickHouse, PostgreSQL, Tarantool, Aerospike. Python, Golang. GitLab, Grafana, Prometheus...
