Ищем сотрудника в проект системы мониторинга, которая построена на Grafana + VictoriaMetrics. Задача команды - постоянное улучшение системы, оптимизация ее работы, разработка новых методов и логики мониторинга. Участие в разборах инцидентов бизнес-сервисов с целью улучшения покрытия их мониторингом.
Обязанности
Развитие систем мониторинга
- Проектировать и поддерживать отказоустойчивую архитектуру мониторинга на базе VictoriaMetrics и Prometheus (федерация, долгосрочное хранение, правила агрегации).
- Строить комплексные дашборды в Grafana, настраивать правила алертинга в Grafana Alerting с минимизацией false-positive срабатываний.
- Развивать и оптимизировать legacy- и новые компоненты на Zabbix (шаблоны, автообнаружение, триггеры с вычисляемыми элементами).
- Унифицировать сбор метрик: продумывать единый стандарт для экспортеров, форматов метрик и каналов оповещения.
Создание AI-инструментов
- Разрабатывать AI-агентов на Python для интеллектуального анализа метрик: поиск аномалий, прогнозирование трендов, автоматическая корреляция событий из разных источников.
- Интегрировать агентов с системами реагирования: автоматическая диагностика, самовосстановление сервисов, эскалация с контекстом.
Инженерная культура
- Вести техническую документацию: архитектурные схемы, runbooks, описание AI-моделей и алгоритмов принятия решений.
- Участвовать в разборе сложных инцидентов, внедрять решения по их предотвращению.
Требования
Углублённые знания технологий мониторинга (must have)
- VictoriaMetrics: архитектура кластера (vminsert, vmselect, vmstorage), MetricsQL, настройка ретеншен-политик и downsampling.
- Prometheus: Federation, remote write/read, PromQL на продвинутом уровне, понимание внутреннего устройства TSDB, работа с service discovery.
- Grafana + Grafana Alerting: создание динамических дашбордов (variables, transformations), provisioning, настройка алертов с шаблонизацией и маршрутизацией уведомлений.
- Zabbix: опыт работы с шаблонами, LLD (low-level discovery), сложные триггеры, API Zabbix для автоматизации.
Навыки разработки и автоматизации
- Уверенное владение Python: написание чистого, поддерживаемого кода для обработки данных и создания AI-агентов (опыт с LLM/агентными фреймворками будет плюсом).
- Базовые знания Java: умение читать код, интегрироваться с существующими сервисами, писать несложные API.
Личные качества и подход к работе
- Аналитический склад ума: способность раскладывать сложные проблемы на составляющие, видеть системные закономерности, принимать решения на основе данных.
- Стрессоустойчивость: сохранять ясность мышления и конструктивный настрой в условиях инцидентов и жёстких дедлайнов.
- Управление задачами: умение самостоятельно планировать свою работу, реалистично оценивать сроки и стабильно доводить задачи до результата.
Будет преимуществом
- Опыт внедрения LLM (LangChain, LangGraph, CrewAI) в процессы эксплуатации.
- Знание Docker, Kubernetes (развёртывание и мониторинг).
- Опыт работы с очередями сообщений (Kafka) и потоковой обработкой данных.
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат
- ежегодный пересмотр зарплаты и годовая премия
- корпоративный спортзал и зоны отдыха
- уникальная система обучения Сбера для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.
Похожие вакансии
Работали с системным и функциональным анализом сложных программно-аппаратных систем, знаете основы их моделирования и стремитесь изучить передовые практики в...
Готовы самостоятельно разбираться в новых стандартах и форматах — отрасль молодая, готовых ответов часто нет. Умеете чётко формулировать мысли в письменной...
Разбираетесь в архитектуре Linux. Понимаете принципы работы компьютерных сетей, работали с основными сетевыми протоколами. Работали с интерфейсами USB, UART, CAN...
Python и алгоритмы на хорошем уровне. Опыт с multithreading и multiprocess. Опыт обучения и/или инференса тяжелых моделей на нескольких...
Образование: Высшее образование + дополнительное образование по проектному управление – желательно. МВА (или курсы повышения) по управлению персоналом. Опыт работы в...
