Мы - команда GigaChat Pretrain Data, готовим pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.
Обязанности
Основные задачи будут лежать в следующих сферах:
Инфраструктура:
- поддержка данных для обучения VLM на кластере YTSaurus.
- построение удобной платформы для эффективного анализа/обработки данных (фильтрация, дедупликация и пр.)
- автоматизация процессов через Airflow.
RnD:
- поиск и синтез данных для обучения VLM (есть несколько областей: OCR/Charts&Tables/Grounding&Counting/General и тд).
- исследование пайплайнов по созданию чистых и разнообразных датасетов (на примере FineVision).
Эксперименты и метрики:
- Обучение VLM на подготовленных данных.
- проведение исследований релевантных intrain метрик, бенчмарков для замера качества.
Требования
- Опыт построения дата пайплайнов и data quality процессов
- Опыт работы в production ml команде (большие нагрузки как преимущество)
- Понимание задач CV и современных подходов в больших языковых моделях
- Опыт решения задач, связанных с влиянием данных на качество VLM
- Практический опыт работы с VLM.
Условия
- комфортный современный офис рядом с м. Кутузовская
- возможность выбрать удобный график – офис/гибрид/удаленка (в РФ)
- годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека для сотрудников по дисконтной прогамме
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.
Похожие вакансии
Опыт работы в области стандартизации и/или СМК на промышленном предприятии (желательно — в сфере радиоэлектроники, приборостроения, авиастроения или БАС).
Высшее профильное образование (Промышленное и гражданское строительство). Опыт работы в должности инженера-конструктора в сфере гражданского строительства от 3-х...
Высшее образование (техническое, пищевых технологий). Опыт работы в аналогичной должности от года на пищевом производстве. Знание кондитерского сырья для печенья...
Высшее образование-теплотехника. Аналогичный опыт по направлению деятельности в теплоэнергетических компаниях. Знание схем работы ЦТП/ИТП.
В/о (техническое). Релевантный опыт работы от 3-х лет. Умение работать в режиме многозадачности, самостоятельность в принятии решений, ответственность...
