В команде разработывается ML-система, детекирующая Out-of-stock ситуации и аномалии в продажах, которая в near-real-time выявляет потенциальные проблемы с наличием товара и отправляет предупреждения сотрудникам магазинов для оперативной проверки и выкладки.
🔹 Задача
Мы строим end-to-end пайплайны, которые собирают данные из разных источников (онлайн и оффлайн-продажи, ERP, внешние API), очищают, трансформируют и подготавливают их для моделей машинного обучения (бустинг и нейронные сети). От качества этих пайплайнов зависит точность прогноза и миллионы управленческих решений в закупках и логистике
🔹 Что предстоит
• Разрабатывать и оптимизировать Spark-пайплайны для обработки данных в масштабе (200+ млн строк ежедневно)
• Настраивать хранение и доступность данных в DWH
• Автоматизировать интеграцию данных: продажи, акции, цены, остатки, погода, календари
• Работать в связке с Data Science-командой, обеспечивая стабильный и качественный поток данных для моделей
• Участвовать в развитии платформы прогнозирования спроса, делая её более надёжной, масштабируемой и удобной
🔹 Наш стек
• PySpark{2,3} / Spark SQL
• Hadoop / Hive / Trino / S3 / clickhouse / postgres/ greenplum
• Airflow
• Python3
• Docker, YARN / k8s
• pytest
Похожие вакансии
Резюме не будет рассмотрено, без портфолио! Направляйте ссылку, в сопроводительном письме. Преимуществом будет умение работать в vectorworks (без, тоже рассмотрим...
Профильное образование (экономическое/бухгалтерское)/ повышение квалификации за последние 3 года. Опыт работы в аналогичной должности от 3 лет.
Опыт работы с языками программирования C++ (17/20) от 5-х лет. Знание принципов объектно-ориентированного программирования (ООП).
Имеешь опыт работы в охране труда более 1 года. Имеешь высшее образование по направлению "Техносферная безопасность" или высшее образование (непрофильное...
Владеет основными конструкциями языка 1С Предприятие и УТ, понимает логику работы платформы. Уверенно пишет и читает запросы в 1...
