Рувики - новая интернет-энциклопедия.
Наш продукт – Онлайн-энциклопедия, предоставляющая доступ к миллионам статей, изображений и видеороликов по самым различным темам - от истории и науки до искусства и технологий.
Мы ищем инженера, который сможет определить, что такое «хорошая модель» для наших продуктов, и разработать инструменты для объективного измерения этого качества. У нас уже есть работающий фреймворк оценки (на базе DeepEval, с несколькими тематическими наборами проверок, LLM-судьями и эталонными датасетами) — вы его возглавите, углубите и масштабируете на новые пайплайны, а не начнёте с чистого листа.
Ваша работа напрямую влияет на каждый продукт, который мы выпускаем: именно ваши метрики и проверки решают, стал ли новый промпт или модель лучше или мы вносим регресс. Специфика домена — фактчекинг и работа с фактологией, которая дрейфует во времени, поэтому «эталонный ответ» протухает; устойчивая к этому методология оценки — одна из центральных инженерных задач роли.
Обязанности:
- Развитие фреймворка оценки. Расширять и систематизировать существующий фреймворк оценки на новые сценарии и агентов; поддерживать единый формат датасетов, метрик и критериев.
- Проектирование метрик и LLM-судей (LLM-as-a-Judge). Проектировать критерии оценки (в стиле G-Eval), метрики faithfulness / grounding / hallucination / citation precision/recall, а также детерминированные классификационные метрики (precision / recall / F1 / accuracy / точное совпадение). Калибровать LLM-судью по человеческой разметке и версионировать критерии по результатам калибровки.
- Построение и стратификация датасетов. Выгружать реальные трассы из продакшена через системы трассировки (LangSmith / LangFuse), обезличивать и очищать данные, стратифицировать выборку (тематика, длина, ветвления путей пайплайна) и собирать эталонные датасеты. Где нужен детерминизм — строить «кассеты» внешней среды с записью и воспроизведением (record/replay для веб-поиска и сбора данных), чтобы регрессия ловила изменение агента, а не изменение интернета.
- Ручная оценка и работа с редакторами (human-in-the-loop). Писать инструкции для разметки и шкалы оценки, готовить наборы для разметки, разбирать расхождения с разметчиками, переводить ручную разметку в машинные датасеты (напр. Google Sheets ↔ JSONL).
- Регрессия и блокирующие проверки в CI. Встраивать проверки-оценки в CI как блокирующие пороговые проверки на изменение промптов/моделей; вести эталонные артефакты (baseline); в сотрудничестве с MLOps-инженерами интегрировать оценку в мониторинг продакшена.
- Эффективность пайплайнов. Ввести в оценку стоимость и задержку прогонов (агенты ходят в веб-поиск и собирают данные — цена прогона реальна): ловить регресс не только по качеству, но и по стоимости/времени, опираясь на данные трассировки.
- Устойчивость к дрейфу эталона (ground truth) и стохастике. Разрабатывать методологию для «протухающей» фактологии (неизменные во времени эталоны, живой источник истины как образец, окна свежести) и для недетерминизма LLM: несколько прогонов, согласованность между прогонами (pass^k — доля прогонов, где проходят все k; не путать с pass@k), доверительные интервалы и пороги по нижней границе CI, калибровка уверенности (Brier / ECE).
- Анализ и исследования. Находить слабые места и «слепые зоны» пайплайнов, выявлять дрейф; изучать и внедрять передовые методы оценки LLM / RAG / агентов (faithfulness, citation, самосогласованность, калибровка судей и т.д.).
- От 4 лет в прикладном ML / NLP / AI, из них от 2 лет — в оценке качества LLM/ML-систем (evaluation) или в роли специалиста по качеству данных (Data Quality).
- Практический опыт построения оценки для LLM-приложений / RAG / агентных пайплайнов, а не только офлайн-бенчмарков готовых моделей.
Технический стек:
- Языки: уверенное владение Python; обработка данных и прикладная статистика.
- Инструменты оценки LLM: практический опыт хотя бы с одним из — DeepEval, Ragas, promptfoo, OpenAI Evals (у нас основной — DeepEval).
- Трассировка и наблюдаемость: LangSmith, LangFuse или аналоги — выгрузка и анализ трасс из продакшена для построения датасетов.
- LLM-оркестрация: понимание устройства агентных / RAG-пайплайнов; знакомство с LangChain / LangGraph — плюс.
- MLOps: понимание CI/CD, уверенная работа с Git; Docker — плюс.
Навыки и знания:
- Проектирование LLM-as-a-Judge с доказательством валидности: умение не просто собрать судью, а обосновать его калибровкой по человеческой разметке — согласованность, разбор расхождений, версионирование критериев.
- Понимание, что делает эталонный датасет валидным: стратификация, предотвращение утечки данных (data leakage), репрезентативность выборки.
- Метрики генеративных / RAG-систем: faithfulness, grounding, citation precision/recall, hallucination — и классические классификационные метрики (F1, precision/recall, accuracy, матрица ошибок).
- Статистическое и аналитическое мышление: понимание, почему абсолютные пороги хрупки и когда нужно сравнение с замороженным эталоном, а не с фиксированным порогом; умение чётко доносить сложные идеи до команды.
- Рабочий русский язык: домен, критерии и разметка — на русском, плотное взаимодействие с русскоязычными редакторами.
- Английский: уверенное чтение технической и академической литературы (статьи по оценке, документация инструментов — на английском).
Будет плюсом:
- Опыт A/B-тестирования и статистики сравнения вариантов.
- Опыт с русскоязычным NLP.
- Насмотренность по академической литературе об оценке LLM (FreshQA, ALCE, SelfCheckGPT и т.п.).
- Знакомство с классическими корпусными метриками (BLEU, ROUGE, METEOR) — как дополнением, а не основой (у нас оценка построена на LLM-судьях и детерминированной разметке).
- Уровень дохода обсуждается с финальным кандидатом по итогам собеседования.
-
Интересные задачи, крутые кейсы, возможность выйти на новый профессиональный уровень.
-
100% «белая» заработная плата, официальное трудоустройство по ТК РФ с первого дня.
-
Полная занятость, удаленный формат работы.
-
Пятидневная рабочая неделя, с пн-пт.
-
Дружный и неравнодушный коллектив профессионалов.
-
Программа ДМС после успешного прохождения испытательного срока.
Похожие вакансии
Опыт на аналогичной должности 2+ лет в международных платежных провайдерах, платежных агрегаторах, платежных системах. Достижения, отражённые в резюме.
Высшее техническое образование, опыт работы проектировщиком ВК 1-3 года для объектов капитального строительства. Знание нормативной документации (отраслевые ГОСТ, СНиП...
Есть профильное или педагогического образования от 3 курса и выше. Есть опыт преподавания от 1 года. Готов(а) предоставлять от...
Высшее химическое образование. Опыт работы с хроматографическим оборудованием от 1 года. Знание методик хроматографии и аналитических процедур. Внимательность к деталям...
Опыт работы в DevOps от 4 лет (Docker, Helm, Jenkins / GitLab CI, Python). Опыт администрирования Kubernetes от 2 лет.
