В Центре робототехники Сбера мы создаем роботов и системы ИИ, которым нужны большие и аккуратно подготовленные наборы данных. Data Conveyor Team отвечает за путь этих данных от сырых записей до формата, с которым могут работать ML-команды. Сейчас нам нужен Software Engineer, который будет превращать записи с роботов и внешние датасеты в понятный, проверяемый и воспроизводимый формат для обучения моделей.
Обязанности
- Проектировать и реализовывать пайплайны, которые превращают данные из разных источников в формат, пригодный для обучения моделей.
- Стабилизировать основной путь конвертации данных с роботов: единый поддерживаемый процесс, проверяемые результаты, повторяемые запуски и понятные отчеты об ошибках.
- Поддерживать dataset schema, versioning, compatibility checks, validators и manifests.
- Подключать новые источники данных: записи с роботов, внешние датасеты, симуляции, egocentric data, данные тестовых запусков и корректирующих демонстраций.
- Обеспечивать reproducible dataset builds и связь source data -> converted episodes -> filtered dataset -> dataset release -> training run -> benchmark result.
- Создавать validation suite: проверка файлов, video/parquet layout, timestamps, required fields, metadata, annotation status и known historical variants.
- Готовить данные к передаче в обучение так, чтобы ML-команды понимали состав датасета, ограничения, версию и качество.
- Делать надежные CLI/tools, тесты, runbooks и отладочные отчеты для исследователей и инженеров.
Требования
- Сильный Python и опыт разработки batch / data processing pipelines.
- Опыт backend, data engineering или software engineering для внутренних платформ и ML/data workflows.
- Опыт работы с большими файлами, metadata manifests, reproducible builds и validation logic.
- Практический опыт с Linux, Docker, Git, CI/CD и командной строкой.
- Понимание storage и data formats: S3/object storage, network storage, parquet, zarr, hdf5, webdataset, video files или аналогичные форматы.
- Умение разбираться в нестандартных форматах данных и приводить их к строгому контракту.
- Готовность писать поддерживаемый production-like код, а не одноразовые conversion scripts.
Будет плюсом:
- Опыт с LeRobot, RLDS, DROID / Bridge / RT-X-like datasets, ROS bags или robotics trajectories.
- Опыт с Ray, Airflow, Prefect, Kubernetes, SLURM, LSF или другими orchestration / job systems.
- Опыт с W&B, MLflow, Hydra configs, experiment tracking или dataset management systems.
- Понимание computer vision, multimodal data, VLA, imitation learning или robot learning.
Условия
- Дружный и высококвалифицированный коллектив
- Уникальные масштабные проекты, работа в приоритетном направлении
- Достойная заработная плата (оклад + годовая премия)
- Современные рабочие места и программное обеспечение
- ДМС, корпоративная пенсионная программа, страхование от несчастных случаев, социальные гарантии, корпоративные мероприятия
- Высокий уровень корпоративной культуры
- Работа в офисе (г. Москва, метро Автозаводская)
Похожие вакансии
PM с 3+ годами опыта управления проектами со сложной архитектурой и множеством взаимосвязанных компонентов. Сильная техническая база: профильное образование...
Образование техническое, не ниже среднего специального. Ответственность, исполнительность.
Высшее техническое образование (предпочтительно в. Области робототехники, автоматизации или мехатроники). - Опыт работы с измерительными и электроинструментами. - Коммуникабельность, ответственность, готовность к...
Образование не ниже среднего специального. Опыт работы в продажах от 1,5 лет. Опыт работы в банке от 1 года.
Высшее техническое образование. Опыт работы по эксплуатации коммерческих объектов. ПК - уверенный пользователь.
