SRE engineer

Работодатель:

Опыт работы:

От 1 года до 3 лет

Место работы:

Москва, Ленинградское шоссе, 16Ас2

Кто мы:
Команда разработки продуктов с дополнительной ценностью. Глобальная задача команды - интегрировать продажи продуктов с доп.ценностью (страховых и сервисных продуктов) во все возможные каналы (сеть отделений, POS, Mobile, web) и все возможные CJ выдачи других продуктов (POS кредиты, кредиты наличными, автокредиты, кредитные карты и т.д.).
Также запускаем нефинансовое направление: подробности на интервью.

Основная задача поддержки — обеспечить стабильную работу бизнеса продуктов с дополнительной ценностью.

Наш стек:

Linux
Kubernetes
PostgreSQL
RabbitMQ
Kafka
MinIO
Nginx
Grafana, VictoriaMetrics, Gmonit
Jira, Confluence, BitBucket, TeamCity

Чем предстоит заниматься:

Поддержка, сопровождение и мониторинг сервисов и интеграций как с внутренними сервисами банка, так и внешними партнерами
Управление инцидентами и обеспечение надежности работы ИТ систем
Обеспечение отказоустойчивой работы
Минимизация влияния внешних систем на бизнес-процессы продуктов с дополнительной ценностью
Диагностика проблем, анализ логов и поиск корневых причин ошибок
Настройка и сопровождение систем мониторинга
Участие в обеспечении резервного копирования и реализации планов восстановления (DRP)

Мы ожидаем:

Уверенные навыки диагностики и устранения сбоев Linux-систем через CLI (командную строку)
Практический опыт анализа и устранения инцидентов в Linux-среде
Навыки автоматизации эксплуатационных задач с использованием Bash/Shell и/или Python
Опыт работы с Kubernetes, Docker, Prometheus, Grafana, ELK/OpenSearch или аналогичными платформами
Практический опыт работы с SQL и эксплуатационной диагностики СУБД
Опыт анализа производительности и диагностики СУБД
Практический опыт сопровождения API и межсервисных интеграций
Навыки диагностики API-взаимодействий в проде
Практический опыт работы с системами мониторинга и наблюдаемости
Практический опыт анализа инцидентов с использованием систем централизованного логирования
Понимание процессов поддержки и эксплуатации production-систем
Опыт работы с ITSM-процессами: управление инцидентами, проблемами и изменениями
Понимание принципов наблюдаемости, мониторинга и эксплуатационной надёжности сервисов
Навыки анализа инцидентов и поиска корневых причин проблем (RCA — Root Cause Analysis, анализ корневых причин)

Будет плюсом:

Опыт работы с практиками SRE (Site Reliability Engineering — инженерное обеспечение надёжности сервисов)
Понимание принципов CI/CD (Continuous Integration / Continuous Delivery — непрерывная интеграция и поставка изменений)

SRE engineer

Похожие вакансии

Популярные профессии