Data Engineer (AI/LLM Data & Infrastructure)

Работодатель:
Зарплата:
180 000 руб.
Опыт работы:
От 1 года до 3 лет

Предлагаем:

  • официальное оформление с первого рабочего дня;

  • заработная плата 180 000 рублей на руки;

  • график работы 5/2 с 9 до 18;

  • офис м. Нагатинская/м. Верхние Котлы;

  • компенсация питания;

  • полный социальный пакет.

Чем предстоит заниматься:

  • разработка, тестирование и поддержка ETL-пайплайнов для сбора, очистки, дедупликации и фильтрации обучающих корпусов;

  • парсинг разнородных документов в структурированные форматы, пригодные для обучения языковых моделей;

  • глубокий анализ больших объемов текстовых и структурированных данных, написание и оптимизация скриптов на Python и SQL;

  • полный цикл поддержки данных: от исследования источников и прототипирования парсеров до production-эксплуатации и мониторинга качества;

  • исследование и внедрение новых подходов в обработке данных для LLM: улучшение фильтрации шумов, оптимизация словарей, автоматизация evaluation-пайплайнов.

От Вас ожидаем:

  • глубокое понимание архитектуры данных, принципов построения ETL/ELT-пайплайнов и жизненного цикла данных для обучения AI-моделей;

  • свободное владение Python и основными библиотеками для обработки данных: Инженерия данных: Polars, Pandas, PyArrow, Dask/Spark Веб-скрапинг и парсинг: Scrapy, Playwright, BeautifulSoup, инструменты разбора документов * NLP-экосистема: Hugging Face Datasets, Tokenizers, NLTK, spaCy;

  • понимание принципов работы токенизаторов и архитектур LLM: опыт разработки или кастомизации токенизаторов, оптимизация словаря под русский язык, работа с subword-алгоритмами (BPE, Unigram, SentencePiece);

  • знание открытых и корпоративных источников данных, умение работать с лицензиями, авторскими правами и compliance при сборе обучающих корпусов;

  • наличие успешного опыта внедрения data-пайплайнов «под ключ» для NLP/LLM-проектов в production-среде.

Похожие вакансии

Инженер технической поддержки
Отраслевой центр разработки и внедрения информационных систем / ОЦРВ

Знание и понимание принципов работы архитектуры ПК, периферийных устройств. Уверенное понимание принципов работы сетевого оборудования и внутреннего устройства компьютерной сети.

Ведущий инженер-проектировщик (навесные вентилируемые фасады)
Сибалюкс

Высшее техническое образование. Общий опыт работы в области проектирования и/или архитектуры в строительстве не менее 3 лет.

160 000 - 350 000 руб.
Инженер АСУТП Производственно- технического отдела
УК ГидроОГК

Или высшее образование (техническое) и дополнительное профессиональное образование - программы профессиональной переподготовки в области эксплуатации оборудования автоматизированных систем управления технологическими процессами...

Инженер РЗА Производственно-технического отдела
УК ГидроОГК

Высшее (желательно по направлениям подготовки «Релейная защита и автоматизация электроэнергетических систем», «Цифровые системы релейной защиты и автоматики», «Электроэнергетические системы и...

Ведущий инженер по электротехническому оборудованию Производственно-технического отдела
УК ГидроОГК

Высшее (желательно по направлениям «Электроэнергетика и электротехника», «Гидроэлектростанции», «Энергетическое машиностроение».). Стаж в энергетике от 3 (трех) лет, в том числе...