Senior Data Scraping & AI Pipeline Engineer (Python / LLM)

Работодатель:
График работы:
Удаленная работа
Занятость:
Полная занятость
Опыт работы:
Более 6 лет

Мы ищем инженера-архитектора данных, для которого не существует нерешаемых задач по парсингу. Нам нужен топ-специалист, способный не просто собирать данные, но и выстраивать интеллектуальные конвейеры обработки, обогащения и анализа информации с помощью LLM.

Если вы знаете, как обойти любую антифрод-защиту, и умеете превращать сырой HTML в структурированные инсайты с помощью нейросетей — эта вакансия для вас.

Что предстоит делать:

Парсинг и сбор данных:

•Проектирование и разработка масштабируемых систем сбора данных.

•Обход сложных систем защиты от ботов (Cloudflare, DataDome, Akamai, кастомные решения), настройка ротации прокси и сессий.

•Мониторинг качества собираемых данных, реализация логики автовосстановления парсеров при изменении верстки.

AI-обработка и пайплайны:

•Интеграция LLM (OpenAI, Claude, локальные модели) в процессы обработки данных: классификация, извлечение сущностей (NER), сентимент-анализ, профилирование.

•Проектирование гибридных систем: rule-based фильтрация + LLM-принятие решений.

•Построение structured output пайплайнов: JSON-схемы с валидацией, автоматическая генерация отчётов.

•Построение пайплайнов обогащения данных и ICP-сегментации (скоринг лидов, оценка digital-зрелости компаний).

Инфраструктура и хранение:

•Разработка архитектуры хранения и быстрого поиска по собранным данным (PostgreSQL, полнотекстовый поиск, векторные базы данных).

•Создание конвейеров автоматизации бизнес-процессов (аутрич, мониторинг, аналитика) на базе n8n / Airflow.

Что мы ожидаем от кандидата:

Обязательно:

•Опыт коммерческой разработки на Python от 4 лет, из них фокус на Web Scraping / Data Engineering от 3 лет.

•Уверенное владение инструментами парсинга: Playwright, Selenium, Puppeteer, Scrapy, BeautifulSoup, aiohttp.

•Практический опыт обхода антибот-систем, работы с headless-браузерами, решения проблем с CAPTCHA.

•Опыт работы с LLM API (OpenAI, Claude ) для задач извлечения данных, классификации и обогащения — обязателен.

•Опыт промпт-инжиниринга: structured output, chain-of-thought, few-shot, валидация схем.

•Глубокое понимание архитектуры баз данных (PostgreSQL), опыт работы с большими объемами данных.

•Опыт построения автоматизированных пайплайнов (n8n, Airflow, cron, Docker).

•Умение декомпозировать сложные задачи и самостоятельно принимать архитектурные решения.

Будет плюсом:

•Опыт работы с векторными базами данных (Pinecone, Milvus, Qdrant) и построения RAG-систем.

•Опыт парсинга Telegram, Discord, закрытых форумов и маркетплейсов.

Мы предлагаем:

•Полностью удаленный формат работы.

•Задачи, требующие нестандартного подхода и глубокой технической экспертизы.

•Полная свобода в выборе инструментов и архитектурных решений.

•Бюджет на инфраструктуру, прокси, API и любые необходимые инструменты.