Работодатель:
Опыт работы:
От 3 до 6 лет
Место работы:
Москва, улица Большая Ордынка, 40с4
Мы - команда платформы данных в направлении Trust & Safety. Делаем данные и признаки для моделей машинного обучения, которые используются в антифроде, модерации контента и других продуктах. У нас есть как потоковая платформа (Databus/Kafka + Flink + Redis/Cassandra), так и “озеро” данных на S3/Apache Iceberg с доступом через Trino. Мы ищем дата-инженера, который обеспечит расчёт и поставку признаков для ML-моделей — от чтения сырых событий до записи финальных значений в онлайн- и офлайн-хранилища.
Вам предстоит:
Вам предстоит:
- Проектировать и разрабатывать потоковые процессы, которые читают события из Databus/Kafka и считают онлайн‑признаки, записывая их в Redis и Cassandra;
- Проектировать и разрабатывать пакетные процессы, которые читают данные из S3/Iceberg через Trino, считают офлайн‑признаки и пишут результаты обратно в S3/Iceberg и/или ClickHouse;
- Следить за тем, чтобы один и тот же признак был согласован между обучением и продакшеном (одна логика расчёта, единый контракт);
- Настраивать расписания, пересчёты и бэки, чтобы признаки обновлялись вовремя и выдерживали SLA по свежести;
- Работать с качеством данных: добавлять проверки, мониторить аномалии, разбирать инциденты, когда “признак поехал”;
- Совместно с DS и аналитиками придумывать новые признаки и помогать перевести их из экспериментальных скриптов в стабильные пайплайны.
Вы нам подходите, если у вас есть:
- 4-5+ лет опыта в роли Data Engineer / Backend+Data;
- Уверенный опыт работы с Kafka‑подобными очередями (Databus/Kafka): продюсеры/консьюмеры, партиционирование, ключи, обработка ошибок;
- Практический опыт со streaming‑движком (желательно Flink; Spark Structured Streaming подойдёт, если есть реальный прод‑опыт);
- Опыт работы с Redis или Cassandra как онлайновым хранилищем данных/признаков;
- Опыт работы с S3‑подобным хранилищем и табличным форматом (Iceberg/Delta/Hudi) и доступа к ним через SQL‑движок (Trino/Presto/Spark SQL);
- Отличное знание SQL и опыт работы с ClickHouse;
- Python на уровне уверенной разработки data‑скриптов и сервисной логики;
- Опыт настройки и сопровождения пайплайнов в Airflow;
- Понимание задач ML‑пайплайнов: train/serve skew, пересчёты признаков, влияние задержек и потерь событий.
Похожие вакансии
Техник по эксплуатации в фитнес-клуб YoBody Fitness
YoBody Fitness, сеть фитнес-клубов
100 000 - 120 000 руб.
Data Engineer
Группа Rubytech
Опыт работы в области данных, включая проектирование, построение, оптимизацию и поддержку архитектур данных; опыт с БД и большими объемами данных.
Главный специалист (инженер-проектировщик ОВиК)
ГАУ города Москвы Московский научно-исследовательский и проектный институт жилищного хозяйства МосжилНИИпроект (ГАУ МосжилНИИпроект)
Высшее техническое образование (Отопление, вентиляция и кондиционирование воздуха). Знание нормативных требований в области проектирования и строительства. Навыки составления задания на...
Медицинская сестра/медицинский брат/ассистент в стоматологию (Бибирево)
Евроонко
Рассматриваем кандидатов на основное место работы. Наличие действующего сертификата/аккредитации. Медицинская книжка обязательна. Опыт работы по специальности. Опыт работы в...
112 000 руб.
Главный инженер по эксплуатации ЖК "Новый Зеленоград"
IKON Development
Высшее техническое образование. Знание жилищного законодательства, норм и правил технической эксплуатации МКД. Опыт работы в управляющей организации / ЖКХ от 3...
206 900 - 206 900 руб.
