Кто мы:
Команда разработки продуктов с дополнительной ценностью. Глобальная задача команды - интегрировать продажи продуктов с доп.ценностью (страховых и сервисных продуктов) во все возможные каналы (сеть отделений, POS, Mobile, web) и все возможные CJ выдачи других продуктов (POS кредиты, кредиты наличными, автокредиты, кредитные карты и т.д.).
Также запускаем нефинансовое направление: подробности на интервью.
Основная задача поддержки — обеспечить стабильную работу бизнеса продуктов с дополнительной ценностью.
Наш стек:
- Linux
- Kubernetes
- PostgreSQL
- RabbitMQ
- Kafka
- MinIO
- Nginx
- Grafana, VictoriaMetrics, Gmonit
- Jira, Confluence, BitBucket, TeamCity
Чем предстоит заниматься:
- Поддержка, сопровождение и мониторинг сервисов и интеграций как с внутренними сервисами банка, так и внешними партнерами
- Управление инцидентами и обеспечение надежности работы ИТ систем
- Обеспечение отказоустойчивой работы
- Минимизация влияния внешних систем на бизнес-процессы продуктов с дополнительной ценностью
- Диагностика проблем, анализ логов и поиск корневых причин ошибок
- Настройка и сопровождение систем мониторинга
- Участие в обеспечении резервного копирования и реализации планов восстановления (DRP)
Мы ожидаем:
- Уверенные навыки диагностики и устранения сбоев Linux-систем через CLI (командную строку)
- Практический опыт анализа и устранения инцидентов в Linux-среде
- Навыки автоматизации эксплуатационных задач с использованием Bash/Shell и/или Python
- Опыт работы с Kubernetes, Docker, Prometheus, Grafana, ELK/OpenSearch или аналогичными платформами
- Практический опыт работы с SQL и эксплуатационной диагностики СУБД
- Опыт анализа производительности и диагностики СУБД
- Практический опыт сопровождения API и межсервисных интеграций
- Навыки диагностики API-взаимодействий в проде
- Практический опыт работы с системами мониторинга и наблюдаемости
- Практический опыт анализа инцидентов с использованием систем централизованного логирования
- Понимание процессов поддержки и эксплуатации production-систем
- Опыт работы с ITSM-процессами: управление инцидентами, проблемами и изменениями
- Понимание принципов наблюдаемости, мониторинга и эксплуатационной надёжности сервисов
- Навыки анализа инцидентов и поиска корневых причин проблем (RCA — Root Cause Analysis, анализ корневых причин)
Будет плюсом:
- Опыт работы с практиками SRE (Site Reliability Engineering — инженерное обеспечение надёжности сервисов)
- Понимание принципов CI/CD (Continuous Integration / Continuous Delivery — непрерывная интеграция и поставка изменений)
Похожие вакансии
Опыт работы с Ansible для автоматизации инфраструктуры. Навыки автоматизации с использованием Python и Bash. Опыт работы с Docker-контейнерами и...
более 50 млн. внешних пользователей. Linux: Debian/Red Hat. Диагностика сетевых проблем (traceroute/tcpdump/tshark); опыт работы с DNS, DHCP...
Опыт администрирования Linux от 3-х лет. Опыт разворачивания инфраструктуры в облачных сервисах (VK Cloud, Yandex Cloud, VMWare, Proxmox).
Практический опыт работы в области информационной безопасности от двух лет. Понимание современных угроз, принципов их митигации и устранения.
3+ года коммерческого опыта в роли DevOps-инженера или системного администратора. Понимание гибридной инфраструктуры: физические сервера + облако +...
