Обязанности:
-
Реагировать на инциденты, проблемы (переданные с L2) и оповещения мониторинга;
-
Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервисов;
- Участвовать в разборе инцидентов и поиске их причин, участвовать в написании Postmortem, контролировать выполнение мер по предотвращению повторений инцидентов;
- Создавать и поддерживать в актуальном состоянии документацию и инструкции для инженеров поддержки L2 и L3;
- Вместе с SRE работать над повышением надёжности системы (мониторинг, алертинг, поиск/указание слабых мест и т.п.).
Требования:
- Глубокие знания и опыт в работе с SDS (Ceph, Cloudian и подобное);
- Уверенные знания и опыт администрирования Linux;
- Опыт сопровождения критических информационных систем и инфраструктуры (чем сложнее – тем лучше);
- Способность принимать взвешенные решения в критической ситуации и умение планомерно работать над поиском причины неисправности и её устранением;
- Знание технологий Openstack;
- Знание принципов функционирования СРК и DR
- Базовые знания в области сетевых технологий;
- Умение работать с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK ).
Будет плюсом:
- Можете читать или писать на Bash, Python ;
- Имеете опыт работы с Ansible (написание плейбуков, ролей);
- Имеет опыт работы с docker;
- Имеете знания или опыт работы с системами контроля версий (Git) и CI/CD (Gitlab, Jenkins);
- Работали с крупными заказчиками;
- Работали в системном интеграторе или в разработке/эксплуатации на стороне клиента.
Похожие вакансии
Высшее техническое образование . Опыт работы не менее 3 лет в должности инженера-технолога . Умение читать чертежи для изготовления жгутов, плат...
Отличный Python 3, опыт с PyTorch, bash, git, Docker, dvc. Глубокое понимание representation learning и multimodal learning. Опыт с vision...
Высшее образование. Опыт работы на аналогичной должности от 3х лет. Умение самостоятельно выстраивать работу СУОТ и ПЭК.
Проводили FMEA, DFA и HARA. Работали в рамках ISO 26262. Знаете методы анализа видов и последствий отказов и умеете применять...
Проводили FMEA, DFA и HARA. Работали в рамках ISO 26262. Знаете методы анализа видов и последствий отказов и умеете применять...
