Работодатель:
Опыт работы:
От 3 до 6 лет

Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.

Обязанности

Основные задачи будут лежать в следующих сферах:

Инфраструктура:

  • поддержка данных для обучения VLM на кластере YTSaurus.
  • построение удобной платформы для эффективного анализа/обработки данных (фильтрация, дедупликация и пр.)
  • автоматизация процессов через Airflow.

RnD:

  • поиск и синтез данных для обучения VLM (есть несколько областей: OCR/Charts&Tables/Grounding&Counting/General и тд).
  • исследование пайплайнов по созданию чистых и разнообразных датасетов (на примере FineVision).

Эксперименты и метрики:

  • Обучение VLM на подготовленных данных.
  • проведение исследований релевантных intrain метрик, бенчмарков для замера качества.

Требования

  • Опыт построения дата пайплайнов и data quality процессов
  • Опыт работы в production ml команде (большие нагрузки как преимущество)
  • Понимание задач CV и современных подходов в больших языковых моделях
  • Опыт решения задач, связанных с влиянием данных на качество VLM
  • Практический опыт работы с VLM.

Условия

  • комфортный современный офис рядом с м. Кутузовская
  • возможность выбрать удобный график – офис/гибрид/удаленка (в РФ)
  • годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • ипотека для сотрудников по дисконтной прогамме
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.

Похожие вакансии

Инженер-эксперт по разработке СнК
YADRO

Экспертное знание Verilog/SystemVerilog. Владение методиками эффективного написания кода. Способность эффективно руководить >5 инженерами. Знание современных протоколов/интерфейсов с возможностью...

Главный инженер / Технический директор (металлообработка, прокатное оборудование)
Grand Line

Аналитика: Чтение и анализ кинематических, электрических, пневматических и гидравлических схем. Требования: Высшее техническое образование (Механика, Технология машиностроения, Промышленное оборудование, Электротехника).

150 000 руб.
Главный инженер гипермаркета
Лента, федеральная розничная сеть

Хорошие организаторские способности, стрессоустойчивость. Высшее техническое образование. Опыт эксплуатации зданий и сооружений. Опыт работы от 1 года в аналогичной сфере...

180 000 руб.
Ведущий инженер-конструктор (КЖ/КМ)
ГК Олимпроект

Образование высшее строительное желательно МГСУ (ПГС, ГСС). ПК уверенный пользователь (AutoCAD, SCAD, Lira-САПР, Microsoft Office). Опыт проектирования стальных и...

Ведущий инженер ПТО
СЭМ

Опыт от 3-х лет в генподрядных организациях. Образование высшее техническое.

180 000 - 200 000 руб.