Мы занимаемся разработкой и сопровождением высоконагруженных информационных систем. Объединяем инновации, современные технологии и экспертов для создания масштабных технологических решений для государственного сектора и крупного бизнеса.
Наши решения позволяют работать с большими объёмами данных, быстро получать информацию, автоматизировать принятие управленческих решений и осуществлять опережающее управление на основе данных.
Ищем Старшего инженера мониторинга в отдел эксплуатации и сопровождения витрин данных
Задачи:
- Диагностика и разрешение производственных инцидентов.
- Оптимизация производительности систем.
- Администрирование баз данных (PostgreSQL, ClickHouse).
- Разработка и поддержка runbooks и документации.
- Наставничество junior engineers.
- Написание root cause analysis (RCA) инцидентов.
Что мы ждем от кандидата:
- Опыт работы на позиции старшего инженера / SRE-инженера от 1 года или на позиции дежурного инженера 2 и более лет.
- Готовность к коммуникациям в MAX (это наш корпоративный мессенджер).
- Готовность к участию в on-call ротации дежурств.
Технические навыки, которые нам важны:
1. Внутреннее устройство Linux/Unix:
- TCP/IP сеть (понимание как работает SYN flood, что такое TIME_WAIT).
- Управление процессами (zombie processes, D-state и т.д.).
- I/O подсистема (iostat, page cache, buffer management).
- Файловые системы и параметры монтирования.
- Tuning параметров ядра (sysctl).
2. Администрирование баз данных:
- PostgreSQL: Patroni, replication, troubleshooting.
- EXPLAIN ANALYZE, оптимизация запросов.
- Анализ блокировок, разрешение deadlock'ов.
- WAL management, backup/restore.
- ClickHouse: дизайн схемы, TTL, merges.
- System-таблицы для диагностики.
- Анализ медленных запросов.
3. Observability Stack:
- VictoriaMetrics + PromQL (написание queries для диагностики).
- Дизайн Grafana дашбордов.
- Логирование (OpenSearch, Fluent Bit).
- Distributed tracing (опционально, но желательно: Jaeger).
Будет плюсом:
- Понимание Infrastructure as Code.
- Ansible playbooks для процедур восстановления.
- Опыт управление инцидентами (Написание RCA (clear, actionable), Root cause vs symptom analysis, Blameless postmortems, Оценка уровня серьезности).
Что предлагаем:
- Формат работы: на время испытательного срока - офис (полный день), после - гибридный формат (3 дня офис, 2 дня удалённо).
- Комфортное рабочее место в современном и стильном офисе в пешей доступности от метро Зорге.
- ДМС со стоматологией после испытательного срока.
- Компенсация спорта.
- Корпоративный университет и библиотеки.
- Скидки на домашний интернет и мобильную связь «Т2».
- Конкурентный уровень дохода (обсуждается на этапе собеседования).
Похожие вакансии
Опыт работы в PR или коммуникациях от 3-х лет с фокусом на B2B или отраслевой PR.
Имеешь высшее или средне специальное техническое образование. У тебя есть понимание базовых принципов работы сетей передачи данных (модель OSI, стек...
Опыт разработки на платформе 1С не менее 3 лет. Хорошее владение средствами разработки 1С 8.3 (основные объекты...
Опыт управления командой бизнес-аналитиков от 3 лет. Экспертный опыт в бизнес-анализе от 3–5 лет. Опыт работы в...
Знание Linux на уровне пользователя системы (Основы управления в Linux. Управление процессами и задачами. Работа с дисками и файловыми системами.
