MLOps (Инженер LLM-инфраструктуры)

Работодатель:
Опыт работы:
Более 6 лет
Место работы:
Москва, бульвар Энтузиастов, 2

AI Platform Team отвечает за всю инфраструктуру AI: от исследований моделей до их продакшн-запуска.

Наша задача — дать продуктам надёжный и эффективный доступ к LLM. Строить отказоустойчивые системы, которые держат нагрузку.

Мы ищем инженера, который будет проектировать, разворачивать и оптимизировать платформу для инференса больших языковых моделей. Работать с vLLM/Triton, GPU-кластерами, observability-стеком, чтобы модели работали быстро, стабильно и экономично.
Если вы строили высоконагруженные ML-системы и хотите решать инфраструктурные задачи в области LLM — давайте обсудим.

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:

Развитие и эксплуатация инфраструктуры для инференса LLM, включая BitrixGPT, локальные и облачные модели:

  • внедрение стеков для эффективного обслуживания LLM, таких как vLLM, Nvidia Triton Inference Server и их аналогов,

  • оптимизация схем распределения нагрузки, батчинга и стриминга токенов.

Настройка, эксплуатация и оптимизация GPU-кластеров для инференса:

  • управление ресурсами, планирование загрузки (capacity planning), снижение стоимости владения.

Профилирование и отладка сервисов инференса:

  • поиск и устранение узких мест, влияющих на задержки (latency) и пропускную способность (throughput).

Настройка наблюдаемости (observability) AI-стека:

  • сбор метрик, логирование, трассировка и алертинг (Prometheus, Grafana и других инструментов,
  • разработка дашбордов для мониторинга доступности, задержек, ошибок и стоимости инференса.

Участие в разработке и улучшении платформенных процессов:

  • совместная работа с командами разработки и data science,
  • ревью архитектуры и сервисов, обмен экспертизой на внутренних митапах.

ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:

  • Продовый опыт эксплуатации ML-/LLM-сервисов.

  • Практический опыт работы с контейнеризацией и оркестрацией (Docker).

  • Владение Python для разработки сервисов, утилит, оркестрации и автоматизации.

  • Понимание устройства современных LLM: архитектура трансформеров, токенизация, контекстное окно, влияние параметров (batch size, KV-cache) на latency и throughput.

  • Опыт настройки мониторинга и логирования в production (Prometheus, Grafana, ELK-стек, Sentry или аналоги).

  • Навыки анализа и оптимизации производительности сервисов: профилирование, поиск и устранение узких мест.

  • Готовность отстаивать своё мнение и предлагать улучшения для достижения наилучшего результата.

ТАКЖЕ ДЛЯ НАС ВАЖНО:

  • Практический опыт работы с vLLM и/или SGLang.

  • Опыт работы с GPU-инфраструктурой: CUDA, мониторинг и тюнинг GPU-нагрузки.

  • Знание принципов безопасной разработки и эксплуатации веб-сервисов.

ЧТО МЫ ПРЕДЛАГАЕМ:

  • Полная занятость с возможностью удаленной работы или работы в комфортном офисе в Москве/Калининграде;
  • Уникальная возможность влиять на пользовательский опыт миллионов компаний по всему миру;
  • Работа в компании, где принятие решений основано на данных и аналитике;
  • Конкурентоспособная заработная плата, оформление по ТКРФ;
  • Программы профессионального развития и обучения;
  • ДМС со стоматологией после трех месяцев работы;
  • Сервис психологической поддержки ЯСНО и онлайн-платформа для спорта;
  • Корпоративная культура, направленная на заботу о сотрудниках и их благополучии.

Похожие вакансии

Инженер-схемотехник
Лаборатория Аквилон

Практический опыт успешного проектирования цифровой и аналоговой электроники. Знание современной элементной базы. Умение подбора элементной базы для разрабатываемого устройства.

Инженер ПТО
Глобал Кэпитал Констракшн

Высшее образование (инженерно-техническое). Опыт в гражданском и промышленном строительстве / реконструкции зданий и сооружений от 3 лет. Опыт формирования и...

180 000 - 190 000 руб.
Ведущий инженер (Группа подрядных работ)
Глобал Кэпитал Констракшн

Высшее образование. Опыт работы от 3 до 6 лет (ПТО, договорной отдел, работа с подрядчиками). Понимаете ценообразование в строительстве (ГЭСН...

190 000 - 190 000 руб.
Инженер строительного контроля по системам ОВиК и ВК
SEVERIN DEVELOPMENT

Высшее инженерное профильное образование. Опыт работы от 5-х лет. Знание СНиП и ГОСТ по проектированию, строительству и надзору.

Инженер по подготовке производства на Московскую верфь
ГУП Мосгортранс

Высшее образование (техническое) по направлениям: «Судостроение», «Судоремонт», «Технология машиностроения». Знание технологии строительства и ремонта судов. Навык организации производственного планирования.

175 000 руб.