Старший инженер мониторинга

Работодатель:

Опыт работы:

От 1 года до 3 лет

Место работы:

Москва, Северный административный округ, Хорошёвский район

Мы занимаемся разработкой и сопровождением высоконагруженных информационных систем. Объединяем инновации, современные технологии и экспертов для создания масштабных технологических решений для государственного сектора и крупного бизнеса.

Наши решения позволяют работать с большими объёмами данных, быстро получать информацию, автоматизировать принятие управленческих решений и осуществлять опережающее управление на основе данных.

Ищем Старшего инженера мониторинга в отдел эксплуатации и сопровождения витрин данных

Задачи:

Диагностика и разрешение производственных инцидентов.
Оптимизация производительности систем.
Администрирование баз данных (PostgreSQL, ClickHouse).
Разработка и поддержка runbooks и документации.
Наставничество junior engineers.
Написание root cause analysis (RCA) инцидентов.

Что мы ждем от кандидата:

Опыт работы на позиции старшего инженера / SRE-инженера от 1 года или на позиции дежурного инженера 2 и более лет.
Готовность к коммуникациям в MAX (это наш корпоративный мессенджер).
Готовность к участию в on-call ротации дежурств.

Технические навыки, которые нам важны:

1. Внутреннее устройство Linux/Unix:

TCP/IP сеть (понимание как работает SYN flood, что такое TIME_WAIT).
Управление процессами (zombie processes, D-state и т.д.).
I/O подсистема (iostat, page cache, buffer management).
Файловые системы и параметры монтирования.
Tuning параметров ядра (sysctl).

2. Администрирование баз данных:

PostgreSQL: Patroni, replication, troubleshooting.
EXPLAIN ANALYZE, оптимизация запросов.
Анализ блокировок, разрешение deadlock'ов.
WAL management, backup/restore.
ClickHouse: дизайн схемы, TTL, merges.
System-таблицы для диагностики.
Анализ медленных запросов.

3. Observability Stack:

VictoriaMetrics + PromQL (написание queries для диагностики).
Дизайн Grafana дашбордов.
Логирование (OpenSearch, Fluent Bit).
Distributed tracing (опционально, но желательно: Jaeger).

Будет плюсом:

- Понимание Infrastructure as Code.

- Ansible playbooks для процедур восстановления.

- Опыт управление инцидентами (Написание RCA (clear, actionable), Root cause vs symptom analysis, Blameless postmortems, Оценка уровня серьезности).

Что предлагаем:

Формат работы: на время испытательного срока - офис (полный день), после - гибридный формат (3 дня офис, 2 дня удалённо).
Комфортное рабочее место в современном и стильном офисе в пешей доступности от метро Зорге.
ДМС со стоматологией после испытательного срока.
Компенсация спорта.
Корпоративный университет и библиотеки.
Скидки на домашний интернет и мобильную связь «Т2».
Конкурентный уровень дохода (обсуждается на этапе собеседования).

Старший инженер мониторинга

Похожие вакансии

Популярные профессии