Ключевые задачи:
- Поддержка кластеров (GPU/TPU), контейнеризации и оркестрации (Docker, Kubernetes);
- Аудит, оптимизация инфраструктуры и затрат (batch vs real-time inference, разграничение проблем железа и кода);
- Настройка мониторинга, алертинга и менеджмент железа между потребителями;
- Развертывание и поддержка ML-сервисов (MLflow, Airflow, CVAT, Doccano) в production;
- Настройка CI/CD для ML-пайплайнов и управление полным ML lifecycle (training -> serving).
Требования:
- Опыт DevOps от 4х лет, MLOps от 1 года;
- Опыт с GPU/TPU инфраструктурой (NVIDIA stack, CUDA);
- Коммерческий опыт с Docker, Ansible, Kubernetes; понимание специфики baremetal;
- ELK, Prometheus, Grafana;
- Опыт с ML Serving (Triton/vLLM/аналоги);
- Postgres, Redis, Kafka.
Будет плюсом, если есть опыт с:
- Python/Bash scripting;
- Облачные платформы (AWS/GCP/Azure/Yandex/Selectel) и Terraform;
- Spark/Hadoop;
Похожие вакансии
Глубокое знание гражданского законодательства, АПК РФ, ГПК РФ, закона «О несостоятельности (банкротстве)» и ключевой судебной практики их применения на уровне...
Лидерство и развитые коммуникативные навыки. Стратегическое мышление и способность управлять изменениями. Системность, внимание к деталям и умение работать с несколькими...
Задача экспертов: на основе практического опыта описать последовательность работ по двум направлениям: Опыт закупок оборудования для строительных проектов (включая long...
Willingness and ability to travel internationally (Europe and the USA) as part of the role. Requirements. Proven experience as CFO...
Опыт работы в детском EdTech или онлайн-школе. Опыт руководства преподавателями, кураторами или командой. Умение быть требовательным, но спокойным.
