ML-разработчик (CV, NLP, UGC)

Работодатель:

Опыт работы:

От 3 до 6 лет

Место работы:

Москва, Цветной бульвар, 25с3

Mamba Group — это 20 лет опыта и экспертизы в:

разработке и продвижении highload-проектов;
проектировании и разработке мобильных приложений;
консалтинге в области технической аналитики, монетизации продуктов, пользовательского опыта.

Наш ключевой продукт, сервис "Мамба" — highload-проект, один из крупнейших dating-проектов в России и странах ближнего зарубежья.

Начиная с 2003 года, Мамба помогает пользователям найти друг друга, создавая для этого лучшие технологии.

О проекте

Мы развиваем собственную систему разметки данных (СРД) — платформу автоматической классификации контента.

В основе системы — большое количество специализированных CV и NLP моделей, каждая из которых отвечает за отдельную задачу: определение объектов, признаков, нарушений, характеристик контента и других категорий.

Сейчас перед нами стоит задача масштабировать разработку ML-направления: перейти от разработки отдельных моделей к промышленному процессу создания, обучения, оценки и эксплуатации большого количества моделей.

Ищем Senior ML Engineer, который поможет построить культуру MLOps и организовать эффективную ML-фабрику.

Чем предстоит заниматься

Разработка CV/NLP/Audio/Video моделей

Создавать и улучшать атомарные ML-модели для различных категорий:

классификация изображений;
object detection;
OCR / обработка текста;
NLP-классификация;
ASR (Automatic Speech Recognition)
Video Action Recognition
Video Captioning / Summarization
multimodal модели (изображения, аудио, видео, текст).

Работать с современными архитектурами:

CNN;
Transformers;
Vision Transformers;
CLIP-like подходы;
foundation models.

Построение процесса массового обучения моделей

Нам важно не просто обучить одну модель, а создать процесс, позволяющий быстро производить десятки и сотни моделей.

Предстоит:

проектировать стандартный lifecycle модели;
создавать reusable training pipelines;
автоматизировать обучение;
внедрять единый подход к экспериментам;
стандартизировать оценку качества моделей;
ускорять вывод моделей в production.

Внедрение MLOps культуры

Организовать процессы:

experiment tracking;
model registry;
версионирование моделей;
контроль качества моделей;
управление артефактами обучения;
воспроизводимость экспериментов.

Настроить процессы:

dataset → training → evaluation → model registry → deployment

Работа с данными

Участвовать в построении правильных процессов подготовки данных:

проведение разведочного анализа данных (EDA)
формирование обучающих датасетов;
организация, контроль и анализ качества разметки;
поиск ошибок в данных;
работа с дисбалансом классов;
hard negative mining;
active learning подходы;
улучшение моделей через улучшение данных.

Production ML

Совместно с backend-командой интегрировать модели в production:

оценивать необходимые вычислительные ресурсы под рост нагрузки;
рассчитывать требования к CPU/GPU инфраструктуре;
прогнозировать стоимость inference;
проектировать эффективный запуск большого количества моделей;
оптимизировать latency и throughput.
подготовка моделей к inference;
оптимизация скорости работы;
мониторинг качества;
анализ деградации моделей;
обновление версий моделей;
документирование ML-моделей (Swagger, Карточки моделей).

Что ожидаем

Обязательно:

опыт 4+ лет в Machine Learning / ML Engineering;
опыт доведения ML-моделей до production;
уверенное знание Python;
опыт с PyTorch;
опыт разработки CV и/или NLP решений.

Хорошее понимание:

как правильно организовать обучение моделей;
как выбирать метрики качества;
как строить train/validation/test;
как анализировать ошибки моделей;
как улучшать качество через данные.

Опыт с:

Transformers;
pretrained/foundation models;
transfer learning;
fine-tuning.

Опыт внедрения MLOps инструментов:

MLflow;
Weights & Biases;
Kubeflow;
Airflow;
DVC.

Опыт с:

Docker;
Kubernetes;
FastAPI;
Triton Inference Server;
model serving.

Опыт с инструментами разметки:

Label Studio;
CVAT.

Опыт с большими объемами данных:

S3/MinIO;
PostgreSQL;
vector search / embeddings.

Кого мы ищем

Нам нужен инженер, который:

умеет не только обучать модели, но и строить ML-процессы;
понимает разницу между research-кодом и production ML;
стремится автоматизировать повторяющиеся задачи;
умеет превращать эксперименты в стабильные пайплайны;
мыслит системно.

Цель роли — построить фундамент, который позволит нашей команде быстро создавать и развивать большое количество моделей.

Мы предлагаем:

Удаленный формат работы из любой точки мира или комфортный офис в шаговой доступности от станции метро "Цветной бульвар"
Международный ДМС со стоматологией
Корпоративные путешествия (Дагестан, Карелия, Ладога, Красная поляна)
Работу в интересном и большом проекте с невероятно опытной командой
Конкурентную заработную плату по результатам интервью
Гибкое начало рабочего дня, возможность работать из другой страны
Минимум рабочих совещаний и бюрократии
Оплата обучения и участий в конференциях и митапах
Ценные подарки сотрудникам от компании по результатам работы
Скидки и акции у наших партнёров
Аккредитация ИТ-компании в Минцифры

Присоединяйтесь! Мы умеем эффективно работать, весело отдыхать и мы всегда рады новым коллегам!