Senior LLM Inference Backend Engineer

Работодатель:
Опыт работы:
От 3 до 6 лет
Место работы:
Москва, Рочдельская улица, 15с1

О команде:
Наша команда обеспечивает доступность нейросетей для тысяч пользователей одновременно. Мы сопровождаем и улучшаем production-платформу для хостинга LLM: ее надежность, производительность и масштабирование. Кроме того, мы создаём прикладные AI-продукты на базе LLM. Ищем опытного инженера, которому интересно работать и с платформенной частью, и с продуктовой.

Чем предстоит заниматься:

  • Инфраструктура и высоконагруженный инференс (Platform Engineering):
  • Проектирование и поддержка GPU-кластера инференса (Nvidia) для десятков тысяч пользователей: скалирование, балансировка и приоритизация запросов, пользовательские лимиты;
  • Оптимизация производительности: кэширование, батчинг, etc.;
  • Надежность и observability: обеспечение SLA и предотвращение регрессий;
  • Оценка и внедрение новых LLM.
  • Продуктовая разработка (LLM Application):
  • Разработка AI-сервисов: AI Code Assistant (Co-Pilot), AI Chat, AI Code Review;
  • Проектирование пайплайнов автоматизаций: tool/function calling, обработка ошибок, управление контекстом/состоянием;
  • Интеграции: встраивание AI-сервисов в корпоративную среду (API, БД, legacy-системы).
  • Исследования и прототипирование (R&D):
  • Проведение экспериментов, создание MVP и выстраивание пути доведения до продакшена;
  • Исследование новых технологий и подходов для улучшения продуктов.

​​​​​​Мы ждем от будущего члена команды:

  • Экспертиза в Python & Backend:
  • Опыт разработки на Python (5+ лет), знание стандартов: typing, асинхронность, паттерны проектирования;
  • Опыт создания высоконагруженных API (FastAPI или аналоги), работа с очередями, воркерами и фоновыми задачами.
  • Архитектура и надежность (Production):
  • Опыт построения gateway/router, управление ключами, маршрутизация, пользовательские лимиты;
  • Опыт поддержки высоконагруженных сервисов в продакшене: стабильность контрактов, обработка ошибок.
  • Глубокие знания LLM & Inference:
  • Опыт работы с инструментами инференса (vLLM, SGLang, OpenAI API), понимание их внутренней работы;
  • Опыт настройки инференса под highload: latency/throughput, управление GPU-ресурсами;
  • Опыт построения решений с tool/function calling: MCP, guardrails, борьба с галлюцинациями.

Дополнительно приветствуем:

  • Насмотренность в применении AI агентов, мультиагентных систем, оркестрации инструментов;
  • Понимание основных метрик качества LLM решений, опыт проведения A/B-тестов и офлайн-оценки: eval-сеты, human eval, etc;
  • Опыт Lua-разработки;
  • Опыт разработки и интеграции MCP.

Похожие вакансии

Devops-инженер (Инфраструктура NMS)
YADRO

Опыт работы с Ansible для автоматизации инфраструктуры. Навыки автоматизации с использованием Python и Bash. Опыт работы с Docker-контейнерами и...

Ведущий разработчик на С++ (техлид)
БЮРО 1440

Уверенное владение современным C++ (C++17/20: constexpr, концепты, coroutines, STL). Опыт коммерческой разработки под Linux: пользовательское и/или системное...

DevOps инженер (Middle+/Senior)
БФТ-Холдинг

более 50 млн. внешних пользователей. Linux: Debian/Red Hat. Диагностика сетевых проблем (traceroute/tcpdump/tshark); опыт работы с DNS, DHCP...

Главный специалист по связям с общественностью (PR)
АО «ОТП Банк» (JSC «OTP Bank»)

Высшее образование. Смежный опыт работы в сфере PR и коммуникаций свыше 3 лет. Хороший навык написания и редактирования текстов: пресс...

Главный бухгалтер/финансовый менеджер
LOOK.IN store

Опыт работы ОСНО либо переход с УСН на ОСНО. - Опыт работы с оборотами от 1 млрд.. - Опыт работы с 1...

150 000 - 200 000 руб.