Работодатель:
Опыт работы:
От 3 до 6 лет
Место работы:
Москва, Серпуховско-Тимирязевская линия, метро Полянка

Ищем сильного инженера для построения и развития Data Lakehouse платформы. Нам нужен человек, который умеет не просто писать пайплайны, а способен спроектировать и построить DLH с нуля: принимать архитектурные решения, выбирать подходы, настраивать и оптимизировать вычислительный слой.

Вам предстоит:

  • Проектировать и развивать Data Lakehouse платформу с нуля
  • Строить надежную и масштабируемую архитектуру хранения и обработки данных
  • Разрабатывать ETL/ELT пайплайны на базе Spark, DBT и Trino
  • Глубоко понимать внутреннее устройство Spark и применять это знание для проектирования эффективных пайплайнов, оптимизации вычислений и решения проблем производительности
  • Разрабатывать кастомные плагины и компоненты для Spark: источники и форматы данных, listeners, расширения каталога и оптимизатора
  • Работать с объектным хранилищем S3 и организовывать эффективную работу с данными в Data Lake
  • Развивать слой метаданных и каталогизации данных (Polaris как metastore)
  • Управлять инфраструктурой и конфигурацией платформы через GitOps (ArgoCD, Helm)
  • Оптимизировать производительность, стоимость вычислений и хранения
  • Строить наблюдаемость платформы: метрики, дашборды и алертинг на базе Prometheus, VictoriaMetrics и Grafana
  • Взаимодействовать с продуктовой командой, понимать потребности пользователей платформы и развивать DLH как внутренний продукт
Вы нам подходите, если:
  • Имеете практический опыт построения Data Lakehouse платформ или крупных Data Platform решений.
  • Имеете опыт проектирования DLH с нуля будет большим преимуществом
  • Владеете глубоким пониманием архитектуры Spark: execution model, partitioning, memory management, shuffle, оптимизация запросов
  • Имеете опыт оптимизации Spark jobs и SQL-запросов
  • Владеете хорошим пониманием принципов работы форматов данных и таблиц в Data Lake (Iceberg/Parquet и аналогичных технологий)
  • Имеете опыт работы с Trino и понимание принципов распределенного выполнения запросов
  • Имеете опыт работы с Airflow и построения сложных data workflows, разработки кастомных операторов, сенсоров, хуков и плагинов
  • Опыт работы с Kubernetes и контейнеризированными платформами
  • Опыт управления инфраструктурой через GitOps (ArgoCD, Helm)
  • Инженерный подход, самостоятельность и способность принимать архитектурные решения
  • Продуктовое мышление: способность понимать потребности пользователей платформы и развивать удобный и надежный data-продукт

Будет плюсом, если вы:

  • Имеете опыт разработки кастомных плагинов и компонентов для Spark на Scala/Java (не PySpark)
  • Имеете опыт построения self-service Data Platform
  • Имеете опыт проектирования multi-tenant Data Lakehouse
  • Имеете опыт настройки безопасности, governance и управления доступами
  • Имеете опыт работы с Iceberg catalog / Polaris
  • Имеете опыт оптимизации стоимости вычислений и хранения данных в облаке
  • Имеете опыт работы в роли Tech Lead / Lead Data Engineer: принятие технических решений, определение архитектурных подходов и развитие инженерных практик
  • Имеете опыт проведения архитектурных ревью, оценки технических решений и выбора технологий
  • Имеете опыт принятия компромиссов между скоростью разработки, надежностью, стоимостью инфраструктуры и долгосрочной поддерживаемостью решения
Наш стек технологий:
  • Аpache Spark
  • DBT (Spark DBT, Trino DBT)
  • Trino
  • Apache Airflow
  • S3-совместимое объектное хранилище
  • Kubernetes
  • Apache Polaris (metastore)
  • GitOps (ArgoCD, Helm)
  • Prometheus, VictoriaMetrics, Grafana

Похожие вакансии

AI Skills Engineer (AI Software)
Quadcode

Техническое образование (полное или в процессе обучения) — CS, инженерия, математика, физика или смежное направление. Глубокое понимание LLM — как работают современные...

Senior DevOps engineer
ИТС Лаб

Требования и навыки: Знание Linux и его экосистемы. Знание Docker и Docker Compose. Знание Prometheus, Grafana. Знания PostgreSQL. Знания Python.

250 000 руб.
DevOps инженер в офис
metaLead

Документировать архитектуру и процессы. Что важно для этой роли: Опыт работы DevOps-инженером от 3 лет. Отличное знание Linux, опыт...

Главный инженер проекта
ТЕХСТРОЙ

Высшее образование по профессии, специальности или направлению подготовки в области строительства. Стаж работы в организациях, осуществляющих подготовку проектной документации, на...

200 000 руб.
Инженер-проектировщик ИБ
ИМБА ИТ

Высшее образование в области информационной безопасности, защиты информации, технической кибербезопасности или физико-математических наук. Опыт профессиональной деятельности в сфере информационной...