На проект по разработке хранилища данных и Data Lake требуется квалифицированный дата-инженер. Одной из составляющих является система self-service аналитики с достаточно большой степенью детализации, что потребует усилий по оптимизации загрузок и чтения данных. В перспективе рассматривается масштабирование за счет облачных ресурсов.
Чем предстоит заниматься:
-
Участие в формировании и согласование архитектуры системы обработки и обмена данными
-
Выбор и тестирование различных инструментов для повышения качества и скорости обработки данных
-
Разработка процедур сбора данных из различных источников (файлы, базы данных, очереди, веб-сервисы, API)
-
Разработка процессов загрузки и трансформации данных в хранилище
-
Разработка процедур обновления витрин
-
Настройка и поддержка оркестрации процессов, алертинг результатов выполнения процессов.
-
Разработка процессов сбора метрик качества данных.
-
Разработка интеграционных процессов с внешними системами.
-
Оптимизация производительности загрузки и чтения данных
-
Разработка кубов для Self-service аналитики
Стек:
Транспорт: Debezium, Kafka
Базы данных: PostgreSQL, Greenplum, Clickhouse
Транформации данных: SQL/pgSQL, Python,
Оркестрация: Airflow,
BI: PowerBI (DAX), Superset
Управление разработкой: Jira, GitLab
Наши ожидания:
-
Высшее образование
-
Опыт работы ETL-разработчиком, дата инженером от 1-го года
-
Практический опыт работы с реляционными СУБД в рамках промышленной эксплуатации (как минимум одна из: Oracle, MS SQL, PostgreSQL)
-
Отличное знание SQL (запросы, оптимизация запросов, анализ производительности запросов, преобразование данных, работы с аналитическими функциями)
-
Наличие опыта разработки ETL-процессов, настройки пайплайнов, навыки оптимизации скорости загрузки
-
Наличие опыта работы с Airflow или другим оркестратором процессов.
-
Знание общих принципов организации процесса разработки, тестирования и сопровождения ПО (DevOps), опыт работы с Git
-
Желательно наличие опыта работы с Clickhouse
-
Знание методологий и принципов разработки хранилищ: Kimball, Data Vault, слои данных.
Мы предлагаем:
-
Официальное оформление по ТК РФ
-
Формат работы: удаленный
-
График 5/2
-
ДМС со стоматологией, компенсация фитнеса, образовательные курсы и семинары
-
Развитая корпоративная культура и дружелюбный коллектив
-
Ежедневное погружение в мир книг и неограниченный доступ ко всем электронным и аудиокнигам
Просьба в сопроводительном письме указывать желаемый уровень дохода.
Похожие вакансии
Опыт работы в Data Science от 3-х лет. Уверенное владение Python и SQL (написание чистого кода, оптимальных SQL-запросов).
3+ года production-опыта в Applied ML. Ты писал код, который работает у реальных пользователей, а не только эксперименты.
Python Expert: Глубокое знание асинхронного программирования (FastAPI, мониторинг, логирование). LLM Frameworks: Опыт работы с LangGraph (приоритет), LangChain или CrewAI.
Отличное знание Python и одного из фреймворков для глубокого обучения (PyTorch или TensorFlow). Практический опыт работы с современными ASR-моделями...
Высшее образование в ведущем вузе по направлению: математика, экономика, физика или другая аналитическая дисциплина. — Опыт работы от 2 лет в...
