Mamba Group — это 20 лет опыта и экспертизы в:
-
разработке и продвижении highload-проектов;
-
проектировании и разработке мобильных приложений;
-
консалтинге в области технической аналитики, монетизации продуктов, пользовательского опыта.
Наш ключевой продукт, сервис "Мамба" — highload-проект, один из крупнейших dating-проектов в России и странах ближнего зарубежья.
Начиная с 2003 года, Мамба помогает пользователям найти друг друга, создавая для этого лучшие технологии.
О проекте
Мы развиваем собственную систему разметки данных (СРД) — платформу автоматической классификации контента.
В основе системы — большое количество специализированных CV и NLP моделей, каждая из которых отвечает за отдельную задачу: определение объектов, признаков, нарушений, характеристик контента и других категорий.
Сейчас перед нами стоит задача масштабировать разработку ML-направления: перейти от разработки отдельных моделей к промышленному процессу создания, обучения, оценки и эксплуатации большого количества моделей.
Ищем Senior ML Engineer, который поможет построить культуру MLOps и организовать эффективную ML-фабрику.
Чем предстоит заниматься
Разработка CV/NLP/Audio/Video моделей
Создавать и улучшать атомарные ML-модели для различных категорий:
- классификация изображений;
- object detection;
- OCR / обработка текста;
- NLP-классификация;
- ASR (Automatic Speech Recognition)
- Video Action Recognition
- Video Captioning / Summarization
- multimodal модели (изображения, аудио, видео, текст).
Работать с современными архитектурами:
- CNN;
- Transformers;
- Vision Transformers;
- CLIP-like подходы;
- foundation models.
Построение процесса массового обучения моделей
Нам важно не просто обучить одну модель, а создать процесс, позволяющий быстро производить десятки и сотни моделей.
Предстоит:
- проектировать стандартный lifecycle модели;
- создавать reusable training pipelines;
- автоматизировать обучение;
- внедрять единый подход к экспериментам;
- стандартизировать оценку качества моделей;
- ускорять вывод моделей в production.
Внедрение MLOps культуры
Организовать процессы:
- experiment tracking;
- model registry;
- версионирование моделей;
- контроль качества моделей;
- управление артефактами обучения;
- воспроизводимость экспериментов.
Настроить процессы:
dataset → training → evaluation → model registry → deployment
Работа с данными
Участвовать в построении правильных процессов подготовки данных:
- проведение разведочного анализа данных (EDA)
- формирование обучающих датасетов;
- организация, контроль и анализ качества разметки;
- поиск ошибок в данных;
- работа с дисбалансом классов;
- hard negative mining;
- active learning подходы;
- улучшение моделей через улучшение данных.
Production ML
Совместно с backend-командой интегрировать модели в production:
- оценивать необходимые вычислительные ресурсы под рост нагрузки;
- рассчитывать требования к CPU/GPU инфраструктуре;
- прогнозировать стоимость inference;
- проектировать эффективный запуск большого количества моделей;
- оптимизировать latency и throughput.
- подготовка моделей к inference;
- оптимизация скорости работы;
- мониторинг качества;
- анализ деградации моделей;
- обновление версий моделей;
- документирование ML-моделей (Swagger, Карточки моделей).
Что ожидаем
Обязательно:
- опыт 4+ лет в Machine Learning / ML Engineering;
- опыт доведения ML-моделей до production;
- уверенное знание Python;
- опыт с PyTorch;
- опыт разработки CV и/или NLP решений.
Хорошее понимание:
- как правильно организовать обучение моделей;
- как выбирать метрики качества;
- как строить train/validation/test;
- как анализировать ошибки моделей;
- как улучшать качество через данные.
Опыт с:
- Transformers;
- pretrained/foundation models;
- transfer learning;
- fine-tuning.
Опыт внедрения MLOps инструментов:
- MLflow;
- Weights & Biases;
- Kubeflow;
- Airflow;
- DVC.
Опыт с:
- Docker;
- Kubernetes;
- FastAPI;
- Triton Inference Server;
- model serving.
Опыт с инструментами разметки:
- Label Studio;
- CVAT.
Опыт с большими объемами данных:
- S3/MinIO;
- PostgreSQL;
- vector search / embeddings.
Кого мы ищем
Нам нужен инженер, который:
- умеет не только обучать модели, но и строить ML-процессы;
- понимает разницу между research-кодом и production ML;
- стремится автоматизировать повторяющиеся задачи;
- умеет превращать эксперименты в стабильные пайплайны;
- мыслит системно.
Цель роли — построить фундамент, который позволит нашей команде быстро создавать и развивать большое количество моделей.
Мы предлагаем:
- Удаленный формат работы из любой точки мира или комфортный офис в шаговой доступности от станции метро "Цветной бульвар"
- Международный ДМС со стоматологией
- Корпоративные путешествия (Дагестан, Карелия, Ладога, Красная поляна)
- Работу в интересном и большом проекте с невероятно опытной командой
- Конкурентную заработную плату по результатам интервью
- Гибкое начало рабочего дня, возможность работать из другой страны
- Минимум рабочих совещаний и бюрократии
- Оплата обучения и участий в конференциях и митапах
- Ценные подарки сотрудникам от компании по результатам работы
- Скидки и акции у наших партнёров
- Аккредитация ИТ-компании в Минцифры
Присоединяйтесь! Мы умеем эффективно работать, весело отдыхать и мы всегда рады новым коллегам!
Похожие вакансии
Умеешь монтировать в CapCut, Premiere Pro, DaVinci Resolve или других программах. Будет плюсом: Опыт съемки разговорных роликов, UGC-контента, обзоров...
Наши ожидания: — Опыт создания видеоконтента для соцсетей от 1 года. — Уверенность перед камерой, умение работать с аудиторией. — Креативность, инициативность, желание...
Выстроить полноценную performance-модель и собрать сильную команду исполнителей (начать придётся самостоятельно): Нужен человек с сильным операционным и аналитическим мышлением...
У вас есть опыт съёмки UGC / Reels / TikTok-контента. Есть минимум 3 работы в портфолио. Вы умеете снимать с хорошим...
Быстрые адаптивные решения под отраслевые проекты (классификация и атрибуция). - Трансформеры в NLP: коммерческий опыт обучения и эксплуатации. - Векторные представления +...
