Мы в поисках MLOps-иженера в команду обеспечению надежности машинного обучения. Ты будешь участвовать в проектировании и развитии платформы для полного жизненного цикла машинного обучения: от экспериментов и обучения моделей до промышленного сервинга, мониторинга, переобучения и вывода моделей из эксплуатации. Мы ищем специалиста с опытом и отраслевой экспертизой, готового принимать архитектурные и инженерные решения, автоматизировать процессы и повышать надежность ML-платформы.
Чем предстоит заниматься:
- Разрабатывать и поддерживать инфраструктуру для экспериментов, обучения и деплоя ML-моделей в batch и online режимах на CPU/GPU
- Автоматизировать жизненный цикл модели от регистрации до промышленного сервинга: сборка образов, проверки, публикация артефактов, деплой, канареечные релизы, A/B-тесты и откаты
- Проектировать и развивать платформу инференса для batch- и online-сценариев на CPU/GPU
- Развивать ML-инфраструктуру на базе Kubernetes: кластеры, GPU-ресурсы, операторы, изоляция окружений, автоскейлинг, маршрутизация трафика и управление ресурсами
- Развивать и поддерживать платформенные компоненты для работы с признаками, моделями и ML-артефактами
- Развивать мониторинг ML-систем: инфраструктурные метрики, метрики сервинга, качество моделей, распределения входных данных, дрейф данных и деградация поведения моделей
- Обеспечивать воспроизводимость и управляемость ML-процессов: версионирование кода, данных и моделей, история экспериментов, изоляция сред обучения и инференса, аудит изменений
- Оптимизировать использование вычислительных ресурсов, включая GPU, с учетом надежности, производительности и стоимости
- Исследовать новые инструменты и подходы в MLOps, оценивать их применимость и внедрять там, где это повышает надежность, скорость разработки или эффективность платформы
Мы ожидаем:
-
Опыт внедрения и сопровождения Kubernetes-кластеров для сервинга ML-моделей на GPU и CPU
-
Практический опыт эксплуатации инструментов для деплоя и обслуживания моделей: Triton Inference Server, BentoML или аналогичных решений
-
Опыт запуска и поддержки инференс-движков в Kubernetes
-
Понимание подходов к автоскейлингу, балансировке нагрузки и маршрутизации запросов для ML-сервисов
-
Понимание принципов мониторинга качества, поведения и эксплуатационных параметров ML-моделей
-
Опыт настройки GPU-инфраструктуры: драйверы, CUDA Toolkit, MIG, GPU-enabled Docker, nvidia-container-toolkit
-
Понимание жизненного цикла ML-экспериментов и инструментов их трекинга: MLflow, ClearML или аналогов
-
Уверенное владение Python для автоматизации, разработки внутренних инструментов и интеграций
-
Уверенный опыт работы с Kubernetes в production: workloads, операторы, Helm, HPA, ingress, storage, observability, диагностика и устранение проблем
-
Опыт описания и автоматизации инфраструктуры на базе IaC: Terraform, Ansible, GitOps-подходы
-
Опыт работы с системами контроля версий и организации CI/CD (GitLab, Bitbucket, Bamboo)
-
Опыт работы с Docker и OCI-образами: сборка, оптимизация, публикация и эксплуатация
-
Уверенное владение Linux: настройка, мониторинг, диагностика сетевых, файловых, ресурсных и производительных проблем
-
Опыт настройки мониторинга и алертинга: Prometheus Stack
-
Опыт безопасной работы с секретами, токенами, сертификатами и чувствительными данными
Будет плюсом
-
Опыт работы с Yandex Cloud, bare metal-инфраструктурой или гибридными окружениями
-
Опыт работы с Kubeflow Pipelines, Kubeflow Notebooks, Kubeflow Katib, Kubeflow KServe
-
Опыт работы с Feature Store: Feast, Aerospike, key-value-хранилища или аналогичные решения
-
Опыт работы с DVC, Git LFS, реестрами моделей и хранилищами ML-артефактов
-
Опыт работы со Spark, Trino, Hadoop, JupyterHub
Похожие вакансии
Высшее образование (экономическое, финансовое, бухгалтерское). Опыт главным бухгалтером в строительной организации от 5-ти лет. Навыки работы в 1С...
Высшее юридическое образование. Опыт работы от 5 лет в строительстве (генподряд) будет ПРЕИМУЩЕСТВОМ. Знание и применение Федеральных законов 44-ФЗ...
Высшее образование. Опыт работы: опыт работы в В2В продажах на экспорт от 1 года (плюс - в нефтегазохимической отрасли...
Высшее образование. Опыт проведения анализа и построения интеграционных потоков между различными информационными системами (платформами). Практический опыт применения различных механизмов и...
Высшее образование. Опыт работы от трех лет (ОТиЗП, экономист по труду). Знания в области трудового законодательства. Обязательное знание: СОУТ, порядок...
