Мы — команда платформы данных в направлении Trust & Safety. Делаем данные и признаки для моделей машинного обучения, которые используются в антифроде, модерации контента и других продуктах. У нас есть как потоковая платформа (Databus/Kafka + Flink + Redis/Cassandra), так и “озеро” данных на S3/Apache Iceberg с доступом через Trino.
Мы ищем дата-инженера, который обеспечит расчёт и поставку признаков для ML-моделей — от чтения сырых событий до записи финальных значений в онлайн- и офлайн-хранилища.
Стек: Databus(Redpanda)/Kafka, Apache Flink, Redis, Cassandra, S3, Apache Iceberg, Trino, ClickHouse, Airflow, Python, dbt.
Вам предстоит:
- Проектировать и разрабатывать потоковые процессы, которые читают события из Databus/Kafka и считают онлайн‑признаки, записывая их в Redis и Cassandra.
- Проектировать и разрабатывать пакетные процессы, которые читают данные из S3/Iceberg через Trino, считают офлайн‑признаки и пишут результаты обратно в S3/Iceberg и/или ClickHouse.
- Следить за тем, чтобы один и тот же признак был согласован между обучением и продакшеном (одна логика расчёта, единый контракт).
- Настраивать расписания, пересчёты и бэки, чтобы признаки обновлялись вовремя и выдерживали SLA по свежести.
- Работать с качеством данных: добавлять проверки, мониторить аномалии, разбирать инциденты, когда “признак поехал”.
- Совместно с DS и аналитиками придумывать новые признаки и помогать перевести их из экспериментальных скриптов в стабильные пайплайны.
Вы нам подходите, если:
- У Вас 4–5+ лет опыта в роли Data Engineer / Backend+Data;
- Имеете уверенный опыт работы с Kafka‑подобными очередями (Databus/Kafka): продюсеры/консьюмеры, партиционирование, ключи, обработка ошибок;
- Имеете практический опыт со streaming‑движком (желательно Flink; Spark Structured Streaming подойдёт, если есть реальный прод‑опыт);
- Опытны в работе с Redis или Cassandra как онлайновым хранилищем данных/признаков;
- Работали с S3‑подобным хранилищем и табличным форматом (Iceberg/Delta/Hudi) и доступа к ним через SQL‑движок (Trino/Presto/Spark SQL);
- Отлично знаете SQL и имеете опыт работы с ClickHouse;
- Python на уровне уверенной разработки data‑скриптов и сервисной логики;
- Имеете опыт настройки и сопровождения пайплайнов в Airflow;
- Понимаете задачи ML‑пайплайнов: train/serve skew, пересчёты признаков, влияние задержек и потерь событий.
Похожие вакансии
Отличное владение языком С. Опыт доработок различных подсистем ядра Linux. Опыт программирования в пространстве ядра Linux. Владение git.
Высшее образование (математическое, техническое, экономическое). Опыт работы на аналогичной позиции от 3-х лет. Хорошие знания в области ОСБУ и...
Опыт работы разработчиком не менее 5 лет. Участие в крупных проектах внедрения (1С:УХ, 1С:ERPУХ, 1С...
Желание разбираться в сложной архитектуре и большом количестве интеграций. Навыки и опыт написания автотестов на Java (rest assured).
Опыт управления проектами, знание методологии проектного управления. Знание инструментов визуализации Power BI. Знание инструментов обработки и трансформации данных.
