Инженер по эксплуатации Linux-инфраструктуры / SRE

Зарплата:
350 000 - 450 000 руб.
Опыт работы:
Более 6 лет

Мы развиваем большую распределенную инфраструктуру с крупным парком серверов и ищем инженера, который будет отвечать за ее стабильность.

Нам нужен человек, который не ограничивается реакцией на алерты, а умеет докапываться до причин: почему сервис деградировал, почему выросла нагрузка, почему отвалился узел, почему мониторинг заметил проблему слишком поздно. Важно, чтобы тебе было интересно не просто «потушить пожар», а сделать так, чтобы он не повторился.

Входной фильтр

Если ты прочитал вакансию внимательно, начни отклик со слов: Я работал в... — и перечисли компании или проекты, где ты лично отвечал за доступность серверов и участвовал в разборе инцидентов.

Чем предстоит заниматься

  • Следить за стабильностью инфраструктуры и быстро реагировать на сбои.
  • Разбирать инциденты: находить первопричины, фиксировать выводы, предлагать изменения.
  • Развивать мониторинг и алертинг на базе Prometheus, Grafana, VictoriaMetrics или похожего стека.
  • Настраивать дашборды так, чтобы было видно реальное состояние сервисов, а не только факт, что сервер отвечает на ping.
  • Искать слабые места в конфигурациях Nginx, Redis, ClickHouse и системных настройках Linux.
  • Автоматизировать рутинные операции через Ansible; Terraform будет плюсом.
  • Настраивать health checks, failover-сценарии и механизмы восстановления сервисов.
  • Участвовать в улучшении процессов эксплуатации: от регламентов до автоматизации повторяющихся задач.

Что важно

  • Опыт эксплуатации Linux-инфраструктуры от 5 лет.
  • Опыт работы с production-системами под нагрузкой.
  • Хорошее понимание Linux: сеть, диски, память, процессы, systemd, логи.
  • Уверенная работа с Nginx: настройка, оптимизация, диагностика проблем.
  • Понимание Redis: репликация, отказоустойчивость, базовая диагностика.
  • Опыт с ClickHouse на уровне базового администрирования и понимания типовых проблем.
  • Умение строить полезный мониторинг, писать PromQL-запросы и настраивать понятные алерты.
  • Опыт с Ansible. Terraform будет плюсом.
  • Умение спокойно и быстро разбираться в инцидентах: сеть, I/O, CPU, RAM, лимиты, конфиги, зависимости между сервисами.

Нам подойдет человек, который

  • Не боится сложной инфраструктуры.
  • Любит порядок в мониторинге, конфигурациях и документации.
  • Умеет объяснить, что произошло, без лишней воды.
  • После инцидента думает не только «как восстановить», но и «как не допустить повторения».
  • Готов предлагать улучшения и доводить их до внедрения.

Что предлагаем

  • Удаленную работу.
  • Гибкое начало рабочего дня.
  • Минимум бюрократии и прямое общение с технической командой.
  • Инфраструктуру, где действительно есть чем заниматься: много серверов, нагрузка, реальные инженерные задачи.
  • Возможность влиять на технические решения и улучшать систему, а не просто закрывать тикеты.

Похожие вакансии

Ведущий менеджер по продажам B2B / Business Development Manager (IT)
Selecty

Опыт успешных B2B-продаж длинного цикла от 3-х лет (продажи услуг, IT-решений, маркетинга, консалтинга).

Senior Data Engineer в команду платформы данных
RWB (Wildberries & Russ)

Хранения больших данных. Имеете опыт от 5 лет в области Data Engineering. Понимаете принципы работы с Big Data (распределенные вычисления...

Партнёр по продажам HR, HR BP, трансформационным и бизнес лидерам крупных корпораций
ЯНГ ГРУПП

Умеете презентовать ценностно, а не функционально: через боли клиента, а не через список услуг. Будет плюсом: - Опыт работы в HR...

Член Совета директоров по стратегии и развитию/Блок доходы (Рыба и рыбные продукты)
АМТ Ард

Внедрение культуры наставничества и обмена знаниями: - Преобразовать разрозненные успешные кейсы и практики в системный механизм, где команды свободно обмениваются опытом...

Руководитель отдела по работе с ключевыми клиентами (B2B, авиакомпании)
CompasTravel

Опыт управления клиентским или коммерческим направлением от 3 лет (B2B-сектор). Опыт взаимодействия с крупными клиентами уровня enterprise...