Старший инженер по оценке качества LLM (Evals)

Работодатель:

Опыт работы:

От 3 до 6 лет

Место работы:

Москва, Ленинградский проспект, 15с14

Рувики - новая интернет-энциклопедия.

Наш продукт – Онлайн-энциклопедия, предоставляющая доступ к миллионам статей, изображений и видеороликов по самым различным темам - от истории и науки до искусства и технологий.

Мы ищем инженера, который сможет определить, что такое «хорошая модель» для наших продуктов, и разработать инструменты для объективного измерения этого качества. У нас уже есть работающий фреймворк оценки (на базе DeepEval, с несколькими тематическими наборами проверок, LLM-судьями и эталонными датасетами) — вы его возглавите, углубите и масштабируете на новые пайплайны, а не начнёте с чистого листа.

Ваша работа напрямую влияет на каждый продукт, который мы выпускаем: именно ваши метрики и проверки решают, стал ли новый промпт или модель лучше или мы вносим регресс. Специфика домена — фактчекинг и работа с фактологией, которая дрейфует во времени, поэтому «эталонный ответ» протухает; устойчивая к этому методология оценки — одна из центральных инженерных задач роли.

Обязанности:

Развитие фреймворка оценки. Расширять и систематизировать существующий фреймворк оценки на новые сценарии и агентов; поддерживать единый формат датасетов, метрик и критериев.
Проектирование метрик и LLM-судей (LLM-as-a-Judge). Проектировать критерии оценки (в стиле G-Eval), метрики faithfulness / grounding / hallucination / citation precision/recall, а также детерминированные классификационные метрики (precision / recall / F1 / accuracy / точное совпадение). Калибровать LLM-судью по человеческой разметке и версионировать критерии по результатам калибровки.
Построение и стратификация датасетов. Выгружать реальные трассы из продакшена через системы трассировки (LangSmith / LangFuse), обезличивать и очищать данные, стратифицировать выборку (тематика, длина, ветвления путей пайплайна) и собирать эталонные датасеты. Где нужен детерминизм — строить «кассеты» внешней среды с записью и воспроизведением (record/replay для веб-поиска и сбора данных), чтобы регрессия ловила изменение агента, а не изменение интернета.
Ручная оценка и работа с редакторами (human-in-the-loop). Писать инструкции для разметки и шкалы оценки, готовить наборы для разметки, разбирать расхождения с разметчиками, переводить ручную разметку в машинные датасеты (напр. Google Sheets ↔ JSONL).
Регрессия и блокирующие проверки в CI. Встраивать проверки-оценки в CI как блокирующие пороговые проверки на изменение промптов/моделей; вести эталонные артефакты (baseline); в сотрудничестве с MLOps-инженерами интегрировать оценку в мониторинг продакшена.
Эффективность пайплайнов. Ввести в оценку стоимость и задержку прогонов (агенты ходят в веб-поиск и собирают данные — цена прогона реальна): ловить регресс не только по качеству, но и по стоимости/времени, опираясь на данные трассировки.
Устойчивость к дрейфу эталона (ground truth) и стохастике. Разрабатывать методологию для «протухающей» фактологии (неизменные во времени эталоны, живой источник истины как образец, окна свежести) и для недетерминизма LLM: несколько прогонов, согласованность между прогонами (pass^k — доля прогонов, где проходят все k; не путать с pass@k), доверительные интервалы и пороги по нижней границе CI, калибровка уверенности (Brier / ECE).
Анализ и исследования. Находить слабые места и «слепые зоны» пайплайнов, выявлять дрейф; изучать и внедрять передовые методы оценки LLM / RAG / агентов (faithfulness, citation, самосогласованность, калибровка судей и т.д.).

Требования:

От 4 лет в прикладном ML / NLP / AI, из них от 2 лет — в оценке качества LLM/ML-систем (evaluation) или в роли специалиста по качеству данных (Data Quality).
Практический опыт построения оценки для LLM-приложений / RAG / агентных пайплайнов, а не только офлайн-бенчмарков готовых моделей.

Технический стек:

Языки: уверенное владение Python; обработка данных и прикладная статистика.
Инструменты оценки LLM: практический опыт хотя бы с одним из — DeepEval, Ragas, promptfoo, OpenAI Evals (у нас основной — DeepEval).
Трассировка и наблюдаемость: LangSmith, LangFuse или аналоги — выгрузка и анализ трасс из продакшена для построения датасетов.
LLM-оркестрация: понимание устройства агентных / RAG-пайплайнов; знакомство с LangChain / LangGraph — плюс.
MLOps: понимание CI/CD, уверенная работа с Git; Docker — плюс.

Навыки и знания:

Проектирование LLM-as-a-Judge с доказательством валидности: умение не просто собрать судью, а обосновать его калибровкой по человеческой разметке — согласованность, разбор расхождений, версионирование критериев.
Понимание, что делает эталонный датасет валидным: стратификация, предотвращение утечки данных (data leakage), репрезентативность выборки.
Метрики генеративных / RAG-систем: faithfulness, grounding, citation precision/recall, hallucination — и классические классификационные метрики (F1, precision/recall, accuracy, матрица ошибок).
Статистическое и аналитическое мышление: понимание, почему абсолютные пороги хрупки и когда нужно сравнение с замороженным эталоном, а не с фиксированным порогом; умение чётко доносить сложные идеи до команды.
Рабочий русский язык: домен, критерии и разметка — на русском, плотное взаимодействие с русскоязычными редакторами.
Английский: уверенное чтение технической и академической литературы (статьи по оценке, документация инструментов — на английском).

Будет плюсом:

Опыт A/B-тестирования и статистики сравнения вариантов.
Опыт с русскоязычным NLP.
Насмотренность по академической литературе об оценке LLM (FreshQA, ALCE, SelfCheckGPT и т.п.).
Знакомство с классическими корпусными метриками (BLEU, ROUGE, METEOR) — как дополнением, а не основой (у нас оценка построена на LLM-судьях и детерминированной разметке).

Условия:

Уровень дохода обсуждается с финальным кандидатом по итогам собеседования.
Интересные задачи, крутые кейсы, возможность выйти на новый профессиональный уровень.
100% «белая» заработная плата, официальное трудоустройство по ТК РФ с первого дня.
Полная занятость, удаленный формат работы.
Пятидневная рабочая неделя, с пн-пт.
Дружный и неравнодушный коллектив профессионалов.
Программа ДМС после успешного прохождения испытательного срока.

Старший инженер по оценке качества LLM (Evals)

Похожие вакансии

Популярные профессии