Создаем поисковый сервис для ответов на запросы пользователей на естественном языке. Предоставляем GigaChat и другим LLM доступ к актуальной информации из интернета, чтобы пользователи получали точные и свежие ответы на разные вопросы.
Предстоит развивать пайплайны наполнения хранилища мультимодальными данными, строить контур подготовки данных для векторного и полнотекстового поиска, работать с большими объемами данных и высоконагруженной архитектурой. Задача технически сложная и интересная: важны надежность, масштабируемость, качество данных, свежесть индекса и производительность. Ценим проактивность, инженерное мышление и желание развиваться.
Обязанности
- проектировать и развивать end-to-end пайплайны данных для поисковой платформы: ingest, batch/micro-batch обработка, нормализация, дедупликация, лемматизация, обогащение и подготовка данных к индексации
- интегрировать новые источники и мультимодальные данные, обеспечивая корректность, полноту и воспроизводимость загрузки
- развивать S3 Data LakeHouse и хранилища данных для задач векторного, полнотекстового и гибридного поиска
- оптимизировать Spark-процессы на Kubernetes, в частности производительность, стоимость хранения, потребление ресурсов и стабильность выполнения
- обеспечивать надежность пайплайнов (мониторинг, качество данных, диагностика инцидентов, контроль SLA)
- внедрять CI/CD, тестирование и observability для data pipelines.
- работать вместе с ML-инженерами, backend-разработчиками и аналитиками над улучшением качества поиска.
Требования
- 3+ лет опыта в роли Data Engineer / ML Engineer / Data Platform Engineer.
- продвинутый Python и SQL
- практический опыт с Airflow и Spark/PySpark в production
- опыт разработки и оптимизации batch или streaming/micro-batch пайплайнов для больших объемов данных: от 100 TB до PB+
- уверенное понимание принципов распределенного хранения данных и распределенных вычислений
- опыт анализа производительности Spark jobs: shuffle, skew, partitioning, memory, resource usage
- опыт построения или развития высоконагруженных платформ обработки данных
- умение проектировать Data LakeHouse / Data Management Platform
- опыт работы с Kubernetes и S3-compatible storage
- понимание Apache Iceberg и современных форматов данных: Parquet, partitioning, schema evolution, compaction
- опыт построения мониторинга, алертов и CI/CD для пайплайнов данных.
Будет плюсом
- опыт работы с поисковыми движками: ElasticSearch, OpenSearch, Vespa
- опыт работы с Cassandra или другими distributed NoSQL-хранилищами
- опыт работы с Kafka или другими брокерами событий
- понимание задач vector search, embeddings, ANN/HNSW, hybrid search
- опыт работы с GPU-инференсом моделей, PyTorch
- опыт работы с облачными платформами: AWS, Yandex Cloud, SberCloud
- опыт с observability stack: Prometheus, Grafana.
Условия
- стабильный оклад и премии по результатам работы, ежегодный пересмотр зарплаты
- комфортный современный офис рядом с м.Кутузовская
- гибридный формат работы: встречаемся очно в офисе 1 раз в неделю
- корпоративный спортзал и зоны отдыха
- уникальная система обучения Сбера для профессионального и карьерного развития
- программа адаптации и помощь руководителя на старте
- расширенный ДМС и льготное страхование семьи
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера
- корпоративная пенсионная программа
Похожие вакансии
Профильное образование и релевантный опыт. Опыт работы главным бухгалтером / заместителем главного бухгалтера (опыт работы в НКО / проектах с целевым финансированием...
Имеет глубокие знания PostgreSQL и ClickHouse, включая: Опыт работы с высоконагруженными базами данных. Установка, настройка, администрирование и миграция серверов БД.
Высшее образование в области автоматизации, электротехники или смежных. - Опыт в программировании ПЛК и автоматизации от 6 лет. - Знание ПО для...
Уверенно пишет на C++ и имеет 3+ лет коммерческого опыта. Отлично владеет STL, алгоритмами и структурами данных.
Опыт работы в области тестирования программного обеспечения от 3 лет. - Знание методик тестирования, стандартов и лучших практик QA. -
