О компании
Steel Balalaika — разработчик Broken Arrow, многопользовательской RTS для PC, с игроками по всему миру и едиными игровыми серверами для всех.
Мы ищем сильного Senior DevOps / SRE Engineer, который возьмёт на себя ответственность за production-инфраструктуру игры, надёжность сервисов, релизы, мониторинг, базы данных и сетевую диагностику.
Это не позиция исключительно про CI/CD или Kubernetes. Нам нужен инженер, способный разбираться в проблемах всей инфраструктуры: от сетевых проблем и Linux до PostgreSQL, игровых серверов и production-инцидентов.
Основные задачи
Production-инфраструктура
-
принять техническое владение и предложить план развития production-инфраструктуры игры
-
разобраться в существующей архитектуре, зависимостях и процессах
-
поддерживать Linux-серверы, игровые сервисы, прокси, базы данных и инфраструктурные компоненты
-
участвовать в планировании развития и реорганизации инфраструктуры
Сеть и игровые сервисы
-
диагностировать и исправлять проблемы TCP/UDP-соединений между клиентами, игровыми серверами, relay-серверами и backend-сервисами в условиях блокировок интернета
-
разбирать packet loss, latency, jitter, fragmentation, MTU и проблемы маршрутизации
-
анализировать региональные проблемы соединения, включая Россию, Европу, США и Азию
-
участвовать в проектировании отказоустойчивых прокси- и relay-схем
-
понимать особенности сетевых блокировок, фильтрации трафика и деградации соединений
Релизы и автоматизация
-
привести release-процесс к воспроизводимому и контролируемому состоянию
-
автоматизировать развёртывание сервисов и конфигураций
-
организовать безопасные production-релизы с pre-check, post-check и rollback
-
устранять ручные операции, которые создают риск ошибок или зависят от конкретного сотрудника
-
обеспечить соответствие DEV, RC и production-окружений
Надёжность и наблюдаемость
-
определить основные SLI/SLO для игровых и инфраструктурных сервисов
-
настроить мониторинг доступности, производительности и ошибок
-
привести систему алертов в рабочее состояние: убрать шум, определить приоритеты и ответственных
-
построить мониторинг PostgreSQL, Redis, Nginx, игровых серверов и системных ресурсов
-
контролировать latency, error rate, saturation, disconnect rate и другие пользовательские показатели
-
организовать process incident response, postmortem и устранение причин повторяющихся сбоев
Обязательные требования
-
не менее 6 лет опыта работы с Linux-инфраструктурой
-
опыт самостоятельной эксплуатации production-систем
-
уверенное знание Linux: systemd, networking, filesystem, processes, limits, performance diagnostics
-
глубокое понимание функционирования и диагностики TCP/IP и UDP
-
практический опыт диагностики и устранения сетевых проблем, в том числе в условиях блокировок
-
опыт построения и поддержки CI/CD
-
опыт работы с Docker
-
опыт администрирования PostgreSQL
-
понимание backup, restore, PITR, replication, locks и query performance
-
опыт построения алертинга и observability
-
опыт расследования production-инцидентов
-
понимание high availability, fault tolerance, RPO и RTO
-
способность самостоятельно разбираться в незнакомой инфраструктуре
-
готовность брать техническую ответственность за результат
-
умение писать понятную техническую документацию
Будет преимуществом
-
опыт эксплуатации игровых серверов;
-
опыт работы с realtime multiplayer
-
опыт работы с инфраструктурой в нескольких географических регионах
-
опыт эксплуатации bare metal
-
опыт эксплуатации managed Kubernetes
-
опыт миграции legacy-инфраструктуры без остановки production
Мы предлагаем
-
работу над выпущенной многопользовательской RTS-игрой
-
прямое взаимодействие с CTO и командой разработки
-
возможность влиять на архитектуру и процессы
-
отсутствие необходимости поддерживать бессмысленные решения только потому, что они однажды появились
-
удалённую работу
-
полную занятость
-
заработную плату 350 000–450 000 рублей, в зависимости от опыта и уровня ответственности;
-
оплачиваемый отпуск и больничные
Похожие вакансии
Практик с реальными кейсами. Вы работали на объекте или в проекте, можете привести примеры решений и их результатов - не теории...
Георгий генерирует идею - ты берёшь тему, разбираешься и приносишь готовый вывод. Менеджмент руководителя. Разбирать входящий поток: удалить/отписать, ответить самостоятельно...
Опыт управления командой технической поддержки API от 1 года (2-3 линии). Опыт работы в роли линейного support специалиста от...
3+ лет коммерческого опыта в Data Science / Machine Learning. Опыт разработки и внедрения ML-моделей в production.
Законченное высшее образование по специальности. Знание пожарных норм и требований российских нормативных документов (СНиПов, ГОСТов,СП, СанПин). Опыт одновременной работы...
