SRE-инженер (Команда системы мониторинга HR платформы)

Работодатель:
Зарплата:
300 000 руб.
Опыт работы:
От 3 до 6 лет

Ищем сотрудника в проект системы мониторинга, которая построена на Grafana + VictoriaMetrics. Задача команды - постоянное улучшение системы, оптимизация ее работы, разработка новых методов и логики мониторинга. Участие в разборах инцидентов бизнес-сервисов с целью улучшения покрытия их мониторингом.

Обязанности

Развитие систем мониторинга

  • Проектировать и поддерживать отказоустойчивую архитектуру мониторинга на базе VictoriaMetrics и Prometheus (федерация, долгосрочное хранение, правила агрегации).
  • Строить комплексные дашборды в Grafana, настраивать правила алертинга в Grafana Alerting с минимизацией false-positive срабатываний.
  • Развивать и оптимизировать legacy- и новые компоненты на Zabbix (шаблоны, автообнаружение, триггеры с вычисляемыми элементами).
  • Унифицировать сбор метрик: продумывать единый стандарт для экспортеров, форматов метрик и каналов оповещения.

Создание AI-инструментов

  • Разрабатывать AI-агентов на Python для интеллектуального анализа метрик: поиск аномалий, прогнозирование трендов, автоматическая корреляция событий из разных источников.
  • Интегрировать агентов с системами реагирования: автоматическая диагностика, самовосстановление сервисов, эскалация с контекстом.

Инженерная культура

  • Вести техническую документацию: архитектурные схемы, runbooks, описание AI-моделей и алгоритмов принятия решений.
  • Участвовать в разборе сложных инцидентов, внедрять решения по их предотвращению.

Требования

Углублённые знания технологий мониторинга (must have)

  • VictoriaMetrics: архитектура кластера (vminsert, vmselect, vmstorage), MetricsQL, настройка ретеншен-политик и downsampling.
  • Prometheus: Federation, remote write/read, PromQL на продвинутом уровне, понимание внутреннего устройства TSDB, работа с service discovery.
  • Grafana + Grafana Alerting: создание динамических дашбордов (variables, transformations), provisioning, настройка алертов с шаблонизацией и маршрутизацией уведомлений.
  • Zabbix: опыт работы с шаблонами, LLD (low-level discovery), сложные триггеры, API Zabbix для автоматизации.

Навыки разработки и автоматизации

  • Уверенное владение Python: написание чистого, поддерживаемого кода для обработки данных и создания AI-агентов (опыт с LLM/агентными фреймворками будет плюсом).
  • Базовые знания Java: умение читать код, интегрироваться с существующими сервисами, писать несложные API.

Личные качества и подход к работе

  • Аналитический склад ума: способность раскладывать сложные проблемы на составляющие, видеть системные закономерности, принимать решения на основе данных.
  • Стрессоустойчивость: сохранять ясность мышления и конструктивный настрой в условиях инцидентов и жёстких дедлайнов.
  • Управление задачами: умение самостоятельно планировать свою работу, реалистично оценивать сроки и стабильно доводить задачи до результата.

Будет преимуществом

  • Опыт внедрения LLM (LangChain, LangGraph, CrewAI) в процессы эксплуатации.
  • Знание Docker, Kubernetes (развёртывание и мониторинг).
  • Опыт работы с очередями сообщений (Kafka) и потоковой обработкой данных.

Условия

  • комфортный современный офис рядом с м. Кутузовская
  • гибридный формат
  • ежегодный пересмотр зарплаты и годовая премия
  • корпоративный спортзал и зоны отдыха
  • уникальная система обучения Сбера для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.

Похожие вакансии

Системный инженер (разработка аппаратуры) в команду роботов доставки
Яндекс

Работали с системным и функциональным анализом сложных программно-аппаратных систем, знаете основы их моделирования и стремитесь изучить передовые практики в...

Системный инженер по сенсорным системам в Автономный транспорт
Яндекс

Готовы самостоятельно разбираться в новых стандартах и форматах — отрасль молодая, готовых ответов часто нет. Умеете чётко формулировать мысли в письменной...

Системный разработчик (Embedded linux) в команду робота-доставщика
Яндекс

Разбираетесь в архитектуре Linux. Понимаете принципы работы компьютерных сетей, работали с основными сетевыми протоколами. Работали с интерфейсами USB, UART, CAN...

Data engineer в команду GigaChat (TTS)
СБЕР

Python и алгоритмы на хорошем уровне. Опыт с multithreading и multiprocess. Опыт обучения и/или инференса тяжелых моделей на нескольких...

Human Resources Director (HRD) в промышленную группу компаний
Токарева Елена Александровна

Образование: Высшее образование + дополнительное образование по проектному управление – желательно. МВА (или курсы повышения) по управлению персоналом. Опыт работы в...