Ищем сильного инженера для построения и развития Data Lakehouse платформы. Нам нужен человек, который умеет не просто писать пайплайны, а способен спроектировать и построить DLH с нуля: принимать архитектурные решения, выбирать подходы, настраивать и оптимизировать вычислительный слой.
Вам предстоит:
- Проектировать и развивать Data Lakehouse платформу с нуля
- Строить надежную и масштабируемую архитектуру хранения и обработки данных
- Разрабатывать ETL/ELT пайплайны на базе Spark, DBT и Trino
- Глубоко понимать внутреннее устройство Spark и применять это знание для проектирования эффективных пайплайнов, оптимизации вычислений и решения проблем производительности
- Разрабатывать кастомные плагины и компоненты для Spark: источники и форматы данных, listeners, расширения каталога и оптимизатора
- Работать с объектным хранилищем S3 и организовывать эффективную работу с данными в Data Lake
- Развивать слой метаданных и каталогизации данных (Polaris как metastore)
- Управлять инфраструктурой и конфигурацией платформы через GitOps (ArgoCD, Helm)
- Оптимизировать производительность, стоимость вычислений и хранения
- Строить наблюдаемость платформы: метрики, дашборды и алертинг на базе Prometheus, VictoriaMetrics и Grafana
- Взаимодействовать с продуктовой командой, понимать потребности пользователей платформы и развивать DLH как внутренний продукт
- Имеете практический опыт построения Data Lakehouse платформ или крупных Data Platform решений.
- Имеете опыт проектирования DLH с нуля будет большим преимуществом
- Владеете глубоким пониманием архитектуры Spark: execution model, partitioning, memory management, shuffle, оптимизация запросов
- Имеете опыт оптимизации Spark jobs и SQL-запросов
- Владеете хорошим пониманием принципов работы форматов данных и таблиц в Data Lake (Iceberg/Parquet и аналогичных технологий)
- Имеете опыт работы с Trino и понимание принципов распределенного выполнения запросов
- Имеете опыт работы с Airflow и построения сложных data workflows, разработки кастомных операторов, сенсоров, хуков и плагинов
- Опыт работы с Kubernetes и контейнеризированными платформами
- Опыт управления инфраструктурой через GitOps (ArgoCD, Helm)
- Инженерный подход, самостоятельность и способность принимать архитектурные решения
- Продуктовое мышление: способность понимать потребности пользователей платформы и развивать удобный и надежный data-продукт
Будет плюсом, если вы:
- Имеете опыт разработки кастомных плагинов и компонентов для Spark на Scala/Java (не PySpark)
- Имеете опыт построения self-service Data Platform
- Имеете опыт проектирования multi-tenant Data Lakehouse
- Имеете опыт настройки безопасности, governance и управления доступами
- Имеете опыт работы с Iceberg catalog / Polaris
- Имеете опыт оптимизации стоимости вычислений и хранения данных в облаке
- Имеете опыт работы в роли Tech Lead / Lead Data Engineer: принятие технических решений, определение архитектурных подходов и развитие инженерных практик
- Имеете опыт проведения архитектурных ревью, оценки технических решений и выбора технологий
- Имеете опыт принятия компромиссов между скоростью разработки, надежностью, стоимостью инфраструктуры и долгосрочной поддерживаемостью решения
- Аpache Spark
- DBT (Spark DBT, Trino DBT)
- Trino
- Apache Airflow
- S3-совместимое объектное хранилище
- Kubernetes
- Apache Polaris (metastore)
- GitOps (ArgoCD, Helm)
- Prometheus, VictoriaMetrics, Grafana
Похожие вакансии
Техническое образование (полное или в процессе обучения) — CS, инженерия, математика, физика или смежное направление. Глубокое понимание LLM — как работают современные...
Требования и навыки: Знание Linux и его экосистемы. Знание Docker и Docker Compose. Знание Prometheus, Grafana. Знания PostgreSQL. Знания Python.
Документировать архитектуру и процессы. Что важно для этой роли: Опыт работы DevOps-инженером от 3 лет. Отличное знание Linux, опыт...
Высшее образование по профессии, специальности или направлению подготовки в области строительства. Стаж работы в организациях, осуществляющих подготовку проектной документации, на...
Высшее образование в области информационной безопасности, защиты информации, технической кибербезопасности или физико-математических наук. Опыт профессиональной деятельности в сфере информационной...
