Middle/Senior Data Engineer

Работодатель:
Опыт работы:
От 3 до 6 лет

Создаем поисковый сервис для ответов на запросы пользователей на естественном языке. Предоставляем GigaChat и другим LLM доступ к актуальной информации из интернета, чтобы пользователи получали точные и свежие ответы на разные вопросы.

Предстоит развивать пайплайны наполнения хранилища мультимодальными данными, строить контур подготовки данных для векторного и полнотекстового поиска, работать с большими объемами данных и высоконагруженной архитектурой. Задача технически сложная и интересная: важны надежность, масштабируемость, качество данных, свежесть индекса и производительность. Ценим проактивность, инженерное мышление и желание развиваться.

Обязанности

  • проектировать и развивать end-to-end пайплайны данных для поисковой платформы: ingest, batch/micro-batch обработка, нормализация, дедупликация, лемматизация, обогащение и подготовка данных к индексации
  • интегрировать новые источники и мультимодальные данные, обеспечивая корректность, полноту и воспроизводимость загрузки
  • развивать S3 Data LakeHouse и хранилища данных для задач векторного, полнотекстового и гибридного поиска
  • оптимизировать Spark-процессы на Kubernetes, в частности производительность, стоимость хранения, потребление ресурсов и стабильность выполнения
  • обеспечивать надежность пайплайнов (мониторинг, качество данных, диагностика инцидентов, контроль SLA)
  • внедрять CI/CD, тестирование и observability для data pipelines.
  • работать вместе с ML-инженерами, backend-разработчиками и аналитиками над улучшением качества поиска.

Требования

  • 3+ лет опыта в роли Data Engineer / ML Engineer / Data Platform Engineer.
  • продвинутый Python и SQL
  • практический опыт с Airflow и Spark/PySpark в production
  • опыт разработки и оптимизации batch или streaming/micro-batch пайплайнов для больших объемов данных: от 100 TB до PB+
  • уверенное понимание принципов распределенного хранения данных и распределенных вычислений
  • опыт анализа производительности Spark jobs: shuffle, skew, partitioning, memory, resource usage
  • опыт построения или развития высоконагруженных платформ обработки данных
  • умение проектировать Data LakeHouse / Data Management Platform
  • опыт работы с Kubernetes и S3-compatible storage
  • понимание Apache Iceberg и современных форматов данных: Parquet, partitioning, schema evolution, compaction
  • опыт построения мониторинга, алертов и CI/CD для пайплайнов данных.

Будет плюсом

  • опыт работы с поисковыми движками: ElasticSearch, OpenSearch, Vespa
  • опыт работы с Cassandra или другими distributed NoSQL-хранилищами
  • опыт работы с Kafka или другими брокерами событий
  • понимание задач vector search, embeddings, ANN/HNSW, hybrid search
  • опыт работы с GPU-инференсом моделей, PyTorch
  • опыт работы с облачными платформами: AWS, Yandex Cloud, SberCloud
  • опыт с observability stack: Prometheus, Grafana.

Условия

  • стабильный оклад и премии по результатам работы, ежегодный пересмотр зарплаты
  • комфортный современный офис рядом с м.Кутузовская
  • гибридный формат работы: встречаемся очно в офисе 1 раз в неделю
  • корпоративный спортзал и зоны отдыха
  • уникальная система обучения Сбера для профессионального и карьерного развития
  • программа адаптации и помощь руководителя на старте
  • расширенный ДМС и льготное страхование семьи
  • гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
  • бесплатная подписка СберПрайм, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера
  • корпоративная пенсионная программа

Похожие вакансии

Главный бухгалтер (НКО)
Благотворительный Фонд Онкологика

Профильное образование и релевантный опыт. Опыт работы главным бухгалтером / заместителем главного бухгалтера (опыт работы в НКО / проектах с целевым финансированием...

220 000 руб.
Senior Database Administrator (в Бильбао, Испания)
Artificial Seed

Имеет глубокие знания PostgreSQL и ClickHouse, включая: Опыт работы с высоконагруженными базами данных. Установка, настройка, администрирование и миграция серверов БД.

Инженер КИПиА (Чукотка, Песчанка)
Assistance Group

Высшее образование в области автоматизации, электротехники или смежных. - Опыт в программировании ПЛК и автоматизации от 6 лет. - Знание ПО для...

300 000 - 320 000 руб.
Senior C++ Developer (в Бильбао, Испания)
Artificial Seed

Уверенно пишет на C++ и имеет 3+ лет коммерческого опыта. Отлично владеет STL, алгоритмами и структурами данных.

QA-инженер
Интерфакс

Опыт работы в области тестирования программного обеспечения от 3 лет. - Знание методик тестирования, стандартов и лучших практик QA. -