Привет! Это команда "Эксплуатации спецпроектов".
Мы обеспечиваем надёжную работу критических сервисов на объектах компании – видеонаблюдения, сети доставки контента, СКУД с биометрией и других.
Наша ключевая цель – управлять десятками (в перспективе сотнями) небольших Kubernetes-кластеров (3–5 нод) и сопутствующей инфраструктурой в условиях «здоровой реальности»: перебоев электропитания, физических поломок оборудования. Помимо управления kuberentes-кластерами мы разворачиваем некоторые коробочные решения (аналоги Jira, Mattermost) непосредственно внутри ОС. В процессе работы тесно взаимодействуем с сетевыми инженерами, ИБ и технической поддержкой на объектах. Уникальность команды – строить отказоустойчивую платформу там, где идеальных условий не бывает, и делать это максимально автоматизировано.
В команде несколько опытных инженеров, которые совместно решают задачи эксплуатации. Вы будете много работать с инженерами на объектах, сетевым отделом, службой информационной безопасности, разработчиками и внутренними потребителями наших сервисов.
Наш стэк: Linux, Kubernetes, Docker, Ansible, Terraform, Helm, Qbec, Prometheus, Grafana, Thanos, Git, PostgreSQL, Bash, Python, Go.
Вы будете
-
Разворачивать и сопровождать Kubernetes на bare-metal для каждого объекта с учётом локальных особенностей.
- Писать и поддерживать инфраструктуру как код (IaC), покрывать её тестами и документацией.
- Настраивать мониторинг и алертинг (Prometheus, Thanos, Grafana) на десятках распределённых кластеров.
- Взаимодействовать с инженерами на объектах, сетевиками и ИБ для диагностики и устранения инцидентов в нестабильных условиях.
- Оптимизировать работу сервисов при перебоях питания, проблемах с дисками или сетью.
- Разрабатывать скрипты автоматизации на Bash/Python/Go для повседневных задач.
Примеры задач:
- Автоматизировать развертывание WatchZone на новом объекте с нуля так, чтобы время установки сократилось с 2 дней до 30 минут.
- Базово уметь диагностировать отсутствие сетевой связанности между серверами (корректная настройка сетевого интерфейса, недоступность шлюза, блокировка трафика фаерволом).
- Провести расследование отказа etcd в одном из кластеров после внезапного отключения электричества – выработать и внедрить меры предотвращения.
- Перенести сервис, работающий на виртуальных машинах, в Kubernetes без потери функциональности и сохранением возможности отката.
Нам важно
-
Экспертные знания Linux (процессы, сетевой стек, файловые системы, работа с оборудованием).
- Опыт развертывания Kubernetes на bare-metal с нуля и понимание его внутренних компонентов (CNI, CSI, API, etcd).
- Опыт автоматизации (Bash/Python/Go) и Infrastucture as Code (Terraform, Ansible, Helm).
- Готовность работать с сервисами вне Kubernetes – самостоятельно устанавливать, настраивать и сопровождать их.
- Понимание работы распределённых систем, сетевых протоколов и принципов высокой доступности.
- Опыт с системами мониторинга (Prometheus, Grafana) и логирования.
- Умение эффективно взаимодействовать с удалёнными техническими командами (инженеры на объектах, сетевики, ИБ).
Будет плюсом
-
Опыт автоматизации развертывания «коробочных» приложений (Jira, Confluence, Mattermost, GitLab и т.п.) через Ansible/Terraform.
- Умение читать и дорабатывать код на Go – для патчинга opensource-компонентов.
- Знание PostgreSQL или других распределённых СУБД (особенно репликация и бэкапы в нестабильной среде).
- Опыт работы в условиях неидеальной инфраструктуры (промышленные объекты, ЦОД с перебоями).
Похожие вакансии
Высшее образование, релевантный опыт работы. Уверенное владение пакетом Microsoft Office с целью создания графиков, диаграмм и инфографики для презентаций и...
Уровень знаний не ниже Специалист по платформе (сертификат не обязателен, но приветствуется). Экспертное знание интеграций с использование HTML, JSON.
Высшее техническое образование. Опыт проектирования промышленного гидропривода, деталей машин и металлоконструкций от 3-х лет. Навыки работы в группе разработчиков.
Высшее техническое образование. Опыт проектирования промышленного гидропривода, деталей машин и металлоконструкций от 3-х лет. Навыки работы в группе разработчиков.
Опыт успешных активных продаж (продажа автотранспорта, страхование автотранспорта, розничный лизинг, банковские продукты). Знание и владения методиками ведения переговоров, убеждения контрагентов...
