Мы ищем инженера-архитектора данных, для которого не существует нерешаемых задач по парсингу. Нам нужен топ-специалист, способный не просто собирать данные, но и выстраивать интеллектуальные конвейеры обработки, обогащения и анализа информации с помощью LLM.
Если вы знаете, как обойти любую антифрод-защиту, и умеете превращать сырой HTML в структурированные инсайты с помощью нейросетей — эта вакансия для вас.
Что предстоит делать:
Парсинг и сбор данных:
•Проектирование и разработка масштабируемых систем сбора данных.
•Обход сложных систем защиты от ботов (Cloudflare, DataDome, Akamai, кастомные решения), настройка ротации прокси и сессий.
•Мониторинг качества собираемых данных, реализация логики автовосстановления парсеров при изменении верстки.
AI-обработка и пайплайны:
•Интеграция LLM (OpenAI, Claude, локальные модели) в процессы обработки данных: классификация, извлечение сущностей (NER), сентимент-анализ, профилирование.
•Проектирование гибридных систем: rule-based фильтрация + LLM-принятие решений.
•Построение structured output пайплайнов: JSON-схемы с валидацией, автоматическая генерация отчётов.
•Построение пайплайнов обогащения данных и ICP-сегментации (скоринг лидов, оценка digital-зрелости компаний).
Инфраструктура и хранение:
•Разработка архитектуры хранения и быстрого поиска по собранным данным (PostgreSQL, полнотекстовый поиск, векторные базы данных).
•Создание конвейеров автоматизации бизнес-процессов (аутрич, мониторинг, аналитика) на базе n8n / Airflow.
Что мы ожидаем от кандидата:
Обязательно:
•Опыт коммерческой разработки на Python от 4 лет, из них фокус на Web Scraping / Data Engineering от 3 лет.
•Уверенное владение инструментами парсинга: Playwright, Selenium, Puppeteer, Scrapy, BeautifulSoup, aiohttp.
•Практический опыт обхода антибот-систем, работы с headless-браузерами, решения проблем с CAPTCHA.
•Опыт работы с LLM API (OpenAI, Claude ) для задач извлечения данных, классификации и обогащения — обязателен.
•Опыт промпт-инжиниринга: structured output, chain-of-thought, few-shot, валидация схем.
•Глубокое понимание архитектуры баз данных (PostgreSQL), опыт работы с большими объемами данных.
•Опыт построения автоматизированных пайплайнов (n8n, Airflow, cron, Docker).
•Умение декомпозировать сложные задачи и самостоятельно принимать архитектурные решения.
Будет плюсом:
•Опыт работы с векторными базами данных (Pinecone, Milvus, Qdrant) и построения RAG-систем.
•Опыт парсинга Telegram, Discord, закрытых форумов и маркетплейсов.
Мы предлагаем:
•Полностью удаленный формат работы.
•Задачи, требующие нестандартного подхода и глубокой технической экспертизы.
•Полная свобода в выборе инструментов и архитектурных решений.
•Бюджет на инфраструктуру, прокси, API и любые необходимые инструменты.
