Работодатель:
График работы:
Полный день
Занятость:
Полная занятость
Опыт работы:
От 3 до 6 лет
Разрабатываем подходы к фильтрации, оцениваем состав больших датасетов и масштабируем пайплайны для обработки и фильтрации огромных мультимодальных датасетов (текст-видео-аудио триплеты, инструкции для редактирования), критически важных для обучения наших моделей.
Обязанности
- создание инфраструктуры для генерации синтетических инструкций для редактирования изображений/видео и синтетических описаний для изображений/видео/аудио
- обучение и внедрение VLM - based фильтров (e.g., на основе Qwen VL и пр.) для автоматической оценки качества, релевантности и безопасности данных
- построение системы дедупликации, кластеризации и балансировки мультимодальных датасетов
- оптимизация хранения данных на удаленных хранилищах и потоковой передачи данных для ускорения обучения
- масштабирование пайплайнов на распределенных кластерах
- опыт руководства (3-4 человека в подчинении).
Требования
- экспертиза в построении data pipelines (Python, SQL)
- опыт обработки мультимодальных данных (особенно видео/аудио), кодеки, фреймворки (FFmpeg, librosa)
- уверенное применение CV/VLM для фильтрации данных (PyTorch, Hugging Face Transformers)
- опыт работы с распределенными вычислениями и облачными хранилищами (S3, GCS)
- знание практик data versioning (DVC) и управления метаданными
- опыт с синтетической генерацией данных, active learning.
Условия
- самое крупное DS&AI сообщество — более 600 специалистов банка
- дайджест о последних разработках в области DS&AI и отчёты с крупных мировых конференций
- гибридный или офисный формат работы
- современный офис у метро Кутузовская
- ежегодный пересмотр зарплаты и годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- специальные условия ипотеки под ставку до 7%
- бесплатная подписка СберПрайм+ и скидки на товары партнёров
- вознаграждение за рекомендации друзей.
