Команда занимается развитием и поддержкой инфраструктуры продукта и одним из важных направлений является обеспечение надежности, производительности и отказоустойчивости компонентов продукта. Для этих целей в продукт были внедрены средства мониторинга, сбора логов и трейсов, а также визуализация и алертинг, которые позволяют отслеживать внутреннее состояние компонентов продукта и сигнализизировать в случае возникновения аномальных ситуаций. В данном направлении команда непосредственно занимается деплоем, оптимизацией компонентов observability, созданием дашбордов, алертов, построением отказоустойчивой инфраструктуры в области observability.
Чем предстоит заниматься:
- Повышать надежность, наблюдаемость компонентов продукта;
- Автоматизация работ по развертыванию и обновлению компонентов, связанных с наблюдаемостью системы;
- Проектировать, внедрять и поддерживать метрики, alerts, dashboards в актуальном состоянии;
- Проектировать и внедрять отказоустойчивую архитектуру компонентов продукта;
- Взаимодействовать с командой разработчиков, участвовать в процессах ревью продуктовых требований.
Что мы требуем от будущего члена команды:
- Опыт работы с операционной системой Linux на уровне администратора;
- Опыт работы с системами мониторинга Prometheus/VictoriaMetrics, визуализации данных с помощью Grafana;
- Опыт работы с системами сбора и хранения логов/трейсов;
- Опыт работы с Ansible;
- Знание одного или нескольких скриптовых языков Python/Bash;
- Понимание принципов построения отказоустойчивых систем.
Будет плюсом:
- Опыт работы с базой данных Clickhouse;
- Опыт работы с OpenTelemetry Collector.
Похожие вакансии
Опыт в телекоме будет плюсом: Понимание специфики работы Виртуальной АТС, Контакт-центров, Телеком API, Речевой аналитики или Голосовых роботов, а...
Опыт продаж в сфере IT/Телеком (софт, железо, сервисные, консалтинговые услуги, услуги связи /каналы передачи данных, доступ в Интернет/, услуги...
Опыт проектирования и разработки высоконагруженных систем (желательно в телеком, EPC/5GC) от 5-6 лет. Опыт лидирования команд, проектов...
Уверенные знания принципов построения и функционирования сетей передачи данных: Знания сетей передачи данных и принципов маршрутизации. Базовое понимание принципов работы...
Профессиональные знания: понимание принципов VoIP и аудиосвязи (задержки, джиттер, потери пакетов). Умение анализировать источники звука и логи. Аналитические навыки: опыт...
