Мы развиваем крупную распределенную инфраструктуру с большим парком серверов. Сейчас мы ищем инженера, который станет «хранителем стабильности»: будет не просто реагировать на алерты, а глубоко разбираться в причинах инцидентов и планомерно вычищать слабые места системы.
Входной фильтр: Начни свой отклик со слов «Я работал в …», а затем перечисли компании, где ты лично отвечал за доступность серверов и разруливал инциденты.
🎯 Твой главный вызов:
Обеспечить максимальный аптайм и прозрачность работы инфраструктуры. Тебе предстоит выстроить процесс так, чтобы инциденты либо предотвращались на подлете, либо купировались автоматикой. Ты — тот, кто находит «тонкие места» раньше, чем они станут проблемой для пользователей.
🛠 Твои задачи:
-
Incident Response & Post-mortems: Оперативное реагирование на сбои и, что важнее, детальный разбор причин.
-
Observability: Развитие мониторинга (Prometheus/Grafana/VictoriaMetrics). Твоя цель — видеть состояние каждого узла и предсказывать деградацию сервисов.
-
Укрепление слабых мест: Поиск и оптимизация «бутылочных горлышек» в конфигурациях Nginx, Redis и ClickHouse.
-
Автоматизация эксплуатации: Написание Ansible-плейбуков и Terraform-манифестов для того, чтобы рутинные операции по восстановлению серверов выполнялись без участия человека.
-
Health Checks & Failsafe: Настройка и проверка механизмов переключения трафика и самовосстановления сервисов.
📋 Требования (Hard Skills):
-
Опыт 5+ лет в эксплуатации Linux-систем (обязательно в проектах с высокой нагрузкой).
-
Monitoring Expert: Ты понимаешь разницу между «сервер пингуется» и «сервер работает корректно», умеешь строить сложные запросы и понятные дашборды.
-
Знание стека: Уверенная работа с Nginx (tuning), понимание репликации в Redis и базовое администрирование ClickHouse.
-
IaC: Опыт работы с Ansible (обязательно) и Terraform (желательно). Твой подход: «сделал руками один раз — запиши в код».
-
Troubleshooting: Умение быстро диагностировать проблемы в сети, дисковой подсистеме или потреблении ресурсов.
-
Желание расти: Ты готов разбираться в новых технологиях и постоянно улучшать текущие процессы.
💼 Что мы предлагаем:
-
Минимум бюрократии: Прямое общение с командой разработки и возможность быстро внедрять свои идеи.
-
Сложная инфраструктура: Реальный Highload, где твои решения влияют на работу сотен серверов.
-
Профессиональный рост: Мы поддерживаем инициативу по улучшению системы — если видишь, что можно сделать лучше, бери и делай.
-
Удаленка: Полный remote и гибкое начало рабочего дня.
Похожие вакансии
Уверенное владение Linux, bash, Ansible. Опыт построения CI/CD пайплайнов. Опыт работы с промышленными системами (production). Понимание процессов сопровождения и...
7+ лет в backend / architecture. Production-опыт с LLM (RAG, agents, evals). Опыт построения CI/CD / Dev Platform.
Понимание работы больших языковых моделей LLM, LLM-агентов, промтов. Опыт работы с моделями ИИ - LLM / NER / BERT / NLU / CV (любой).
Хорошие знания и опыт применения различных методик тестирования. Твердые знания сетевых технологий не ниже уровня CCNA. Понимание принципов работы протоколов...
Профильное высшее образование. Опыт проектирования наружных сетей ЭС и НО в г. Москве (также рассматриваем специалистов без опыта, выпускников и...
