В современном цифровом мире данные являются одним из самых ценных активов. Компании, которые умеют эффективно собирать, анализировать и использовать информацию, получают неоспоримое конкурентное преимущество. Одним из ключевых методов получения данных из открытых источников, таких как веб-сайты, является парсинг.

Концепция парсинга: объяснение простыми словами

Парсинг (от английского parsing — синтаксический анализ, разбор) — это процесс автоматизированного сбора и структурирования информации с веб-сайтов при помощи специальной программы, называемой парсером.¹ Если представить веб-сайт как огромную библиотеку с тысячами книг на полках, то парсер — это ваш личный робот-библиотекарь. Вы даете ему четкое задание: найти все книги (данные) по определенной теме (например, все вакансии для программистов в Москве), извлечь из них конкретную информацию (название, автор, год издания) и сложить ее в аккуратную стопку в виде структурированной таблицы.

Технически процесс выглядит следующим образом: парсер отправляет запрос к веб-странице, точно так же, как это делает ваш браузер. В ответ сервер сайта отдает HTML-код этой страницы. Затем парсер анализирует этот код, находит в нем заранее определенные фрагменты данных (например, текст внутри тегов с определенным классом) и извлекает их, сохраняя в удобном для дальнейшей обработки формате, например, в таблицу Excel или базу данных.²

Цели и задачи парсинга в контексте рынка труда

На рынке труда, где информация о вакансиях, зарплатах и требованиях к кандидатам меняется ежедневно, парсинг становится мощным инструментом для решения целого ряда бизнес-задач:

Анализ рынка заработных плат: Автоматический сбор данных о зарплатных предложениях в тысячах вакансий позволяет компаниям анализировать «вилки» зарплат для разных специалистов, регионов и уровней квалификации. Это помогает формировать конкурентоспособные предложения для своих сотрудников и кандидатов.¹
Мониторинг активности конкурентов: Парсинг позволяет отслеживать, какие компании активно нанимают персонал, каких специалистов они ищут и какие условия предлагают. Эта информация бесценна для стратегического планирования и понимания кадровой политики конкурентов.
Обогащение внутренних HR-систем: Собранные данные о требованиях и ключевых навыках, указанных в вакансиях, могут использоваться для обновления профилей должностей и программ обучения внутри компании.
Проведение макроэкономических исследований: Агрегированные данные о количестве вакансий в различных отраслях и регионах служат индикатором состояния экономики и отдельных секторов рынка труда. Такие данные могут быть полезны для аналитических агентств, государственных структур и инвесторов.

HeadHunter (hh.ru) как ключевой источник данных

В России доминирующей платформой для поиска работы и подбора персонала является HeadHunter (hh.ru).³ На момент подготовки данного отчета на сайте размещено свыше 1.1 миллиона актуальных вакансий и более 86 миллионов резюме от 2.2 миллионов компаний.⁴ Такой масштаб делает hh.ru не просто сайтом для поиска работы, а де-факто главной базой данных о состоянии российского рынка труда. Ценность этой информации заключается не в отдельных вакансиях, которые можно просмотреть вручную, а в возможности анализировать весь массив данных целиком. Именно парсинг позволяет раскрыть этот потенциал, выявляя тренды, зависимости и закономерности, невидимые при обычном использовании сайта.

Глава 2: Анатомия данных на HeadHunter: что можно собрать?

Для эффективного сбора данных необходимо четко понимать, какая именно информация доступна на сайте и как она структурирована. Данные на hh.ru можно условно разделить на две большие категории: данные о вакансиях и данные о резюме. Эти категории имеют принципиально разную структуру и, что более важно, разный правовой статус.

Структура данных вакансии

При поиске вакансий на hh.ru пользователь видит список, где каждая позиция представлена в сокращенном виде. Уже на этом этапе можно извлечь значительный объем полезной информации.

Данные на странице списка вакансий:

Название вакансии: Например, «Frontend-разработчик» или «Программист-стажер».⁵
Заработная плата: Часто указывается в виде диапазона («от» и «до»), с указанием валюты (₽) и налогового статуса («на руки» или «до вычета налогов»).⁴
Название компании-работодателя: Например, «WILDBERRIES» или «Первый Бит».⁵
Местоположение: Город и иногда ближайшие станции метро.⁵
Требуемый опыт работы: Указывается в диапазоне лет, например, «1–3 года» или «Без опыта».⁵
Краткое описание или ключевые теги: Например, «Можно удалённо».⁶

При переходе на страницу конкретной вакансии открывается расширенный набор данных, который представляет наибольший интерес для анализа.

Данные на странице отдельной вакансии:

Полное описание вакансии: Подробный текст с описанием обязанностей, требований и условий работы.
Ключевые навыки: Список навыков, которые работодатель ожидает от кандидата.
Дата публикации: Позволяет отслеживать актуальность вакансии и динамику их появления.
Адрес компании: Точный адрес места работы.
URL вакансии: Уникальная ссылка на страницу.

Систематизировав эти поля, можно составить «карту данных» для каждой вакансии, которая послужит основой для технического задания на разработку парсера.

Таблица 1: Структура данных вакансии на hh.ru

Поле данных	Тип данных	Пример	Источник
ID вакансии	Числовой	123188170	URL страницы
Название вакансии	Текст	Frontend Developer / Фронтенд-разработчик	⁵
URL вакансии	URL	https://hh.ru/vacancy/123188170	⁵
Зарплата «от»	Число	180000	⁵
Зарплата «до»	Число	220000	⁵
Валюта	Текст	₽	⁵
Налоговый статус	Текст	на руки	⁵
Название компании	Текст	WILDBERRIES	⁵
URL компании	URL	https://hh.ru/employer/87021	⁵
Рейтинг компании	Число	3.4	⁵
Город	Текст	Москва	⁵
Адрес	Текст	Москва, Марксистская	⁵
Требуемый опыт	Текст	3-6 лет	⁵
Полное описание	Текст	«Мы ищем опытного разработчика для…»	⁸
Ключевые навыки	Список	JavaScript, React, HTML, CSS	⁹
Дата публикации	Дата/Время	2025-07-24T10:00:00	¹⁰

Структура данных резюме и их правовой статус

В отличие от вакансий, которые являются обезличенными данными о предложениях компаний, резюме содержат информацию о конкретных физических лицах. Это коренным образом меняет их правовой статус.

Ключевые поля данных в резюме:

Персональная информация: ФИО, пол, возраст, дата рождения.¹¹
Контактная информация: Телефон и адрес электронной почты, которые являются основным способом связи.¹¹
Фотография: Изображение кандидата.
Место проживания: Город и ближайшее метро.¹¹
Профессиональная информация: Опыт работы (компании, должности, обязанности), образование, пройденные курсы.
Ключевые навыки: Список профессиональных компетенций.⁹
Желаемая должность и зарплата.

Фундаментальное различие между вакансиями и резюме заключается в том, что практически каждое поле в резюме подпадает под определение «персональные данные» согласно российскому законодательству. Это не случайное совпадение, а прямое следствие природы этих данных. Вакансия описывает юридическое лицо (компанию), в то время как резюме описывает физическое лицо (человека). Федеральный закон № 152-ФЗ «О персональных данных» определяет их как «любую информацию, относящуюся к прямо или косвенно определенному или определяемому физическому лицу».¹² Таким образом, любой автоматизированный сбор данных из резюме является обработкой персональных данных, что накладывает строжайшие юридические ограничения.

Таблица 2: Структура данных резюме и их классификация по ФЗ-152

Поле из резюме	Пример	Категория по ФЗ-152	Необходимость получения согласия
ФИО	Иванов Иван Иванович	Общие ПДн	Обязательно
Телефон	+7 (999) 999-99-99	Общие ПДн	Обязательно
Email	ivan.ivanov@email.com	Общие ПДн	Обязательно
Фотография	(изображение лица)	Биометрические ПДн	Обязательно (в письменной форме)
Город проживания	Москва	Общие ПДн	Обязательно
Опыт работы	ООО «Ромашка», инженер	Общие ПДн	Обязательно
Образование	МГУ, 2010	Общие ПДн	Обязательно

Эта таблица наглядно демонстрирует, почему парсинг резюме является операцией с высоким правовым риском. В отличие от парсинга вакансий, где основной вопрос лежит в плоскости нарушения правил сайта, здесь в игру вступает федеральное законодательство, защищающее права граждан.

Часть 2: Технические методы сбора данных

Существует два принципиально разных подхода к автоматизированному сбору данных с HeadHunter: официальный, через предоставленный платформой API, и неофициальный, путем прямого парсинга HTML-страниц сайта. Выбор между этими подходами определяет не только техническую реализацию проекта, но и его легальность, стабильность и итоговую стоимость.

Глава 3: Официальный и самый безопасный путь: работа с HeadHunter API

Самый цивилизованный, надежный и, что самое главное, законный способ получения данных с hh.ru — это использование официального API (Application Programming Interface).¹⁴

Что такое API и как он работает?

API можно сравнить с официантом в ресторане. Вместо того чтобы самому бежать на кухню, разбираться в кастрюлях и искать нужные ингредиенты (что аналогично прямому парсингу), вы делаете заказ по меню (документация API). Официант (сервер API) принимает ваш заказ (запрос), передает его на кухню (в базу данных hh.ru) и приносит вам готовое, красиво оформленное блюдо (структурированные данные в формате JSON). Этот процесс полностью контролируется владельцем «ресторана» (HeadHunter), что гарантирует порядок и предсказуемость.

Для начала работы с API необходимо выполнить несколько шагов:

Регистрация приложения: Разработчик должен зарегистрировать свое приложение на специальном портале для разработчиков dev.hh.ru.
Получение токена: После регистрации приложение получает уникальный ключ (токен) для аутентификации. Этот токен необходимо передавать с каждым запросом, чтобы система hh.ru понимала, кто именно обращается к данным.¹⁴

Ключевые возможности и ограничения API

HeadHunter API предоставляет широкий набор методов («endpoints») для работы с данными ¹⁴:

Поиск вакансий: Позволяет искать вакансии по различным критериям (ключевые слова, регион, профобласть и т.д.).
Получение информации о вакансии: Позволяет получить полную информацию о конкретной вакансии по ее ID.¹⁰
Работа со справочниками: Предоставляет доступ к внутренним справочникам hh.ru, таким как список регионов, профессиональных областей, типов занятости и т.д.
Работа с резюме: Функциональность по работе с резюме также существует, но она жестко ограничена и, как правило, требует наличия у компании оплаченного доступа к базе резюме.¹⁷

Однако ключевым фактором при работе с API являются лимиты и квоты. HeadHunter, как и любая другая крупная платформа, ограничивает количество запросов, которые одно приложение может совершать за определенный промежуток времени. Это делается как для защиты серверов от перегрузки, так и для контроля за использованием данных.

Таблица 3: Ключевые лимиты HeadHunter API

Тип лимита	Значение	Примечание	Источник
Максимум записей в выдаче	2000	На один поисковый запрос можно получить не более 2000 вакансий (20 страниц по 100 вакансий).	¹⁸
Элементов на странице	100	Максимальное количество вакансий, возвращаемое на одной странице результатов.	¹⁸
Запросов в секунду	30	Ограничение на частоту запросов от одного приложения/пользователя.	¹⁹
Просмотров резюме в сутки	500	На одного менеджера компании. Требует платного доступа к базе резюме.	¹⁷

Эти лимиты означают, что собрать абсолютно все вакансии с сайта за короткий промежуток времени через API невозможно. Например, чтобы обойти ограничение в 2000 записей на запрос, необходимо дробить один большой запрос на множество мелких, более специфичных (например, по разным районам города или узким специализациям). Это делает процесс сбора данных более медленным и сложным, но по-прежнему осуществимым и легальным.

Пример кода для работы с API (Python)

Ниже приведен упрощенный пример кода на языке Python, демонстрирующий, как получить список вакансий по запросу «Python» в Москве с помощью официального API.

Python

import requests import json # URL для поиска вакансий через API url = 'https://api.hh.ru/vacancies' # Параметры запроса: текст поиска, регион (1 - Москва), количество на странице params = { 'text': 'NAME:Python', 'area': 1, 'per_page': 100 } # Заголовки запроса, включая User-Agent для идентификации headers = { 'User-Agent': 'MyCoolApp/1.0 (my-email@example.com)' } # Отправка GET-запроса к API response = requests.get(url, params=params, headers=headers) # Проверка, что запрос успешен (код ответа 200) if response.status_code == 200: # Преобразование ответа из JSON в словарь Python data = response.json() # Вывод количества найденных вакансий print(f"Найдено вакансий: {data['found']}") # Перебор полученных вакансий и вывод их названий и зарплат for vacancy in data['items']: salary_info = "Зарплата не указана" if vacancy.get('salary'): salary = vacancy['salary'] currency = salary.get('currency', '') if salary.get('from') and salary.get('to'): salary_info = f"от {salary['from']} до {salary['to']} {currency}" elif salary.get('from'): salary_info = f"от {salary['from']} {currency}" elif salary.get('to'): salary_info = f"до {salary['to']} {currency}" print(f"- {vacancy['name']} ({salary_info})") else: print(f"Ошибка выполнения запроса: {response.status_code}")

Данный код является демонстрационным и требует адаптации для реальных задач.

Наличие публичного, но строго лимитированного API ¹⁴ в сочетании с существованием сторонних платных сервисов-парсеров (например, на платформе Apify ²⁰) свидетельствует о сложившейся вокруг данных hh.ru бизнес-экосистеме. Платформа не столько борется с фактом программного доступа к данным, сколько стремится его контролировать и монетизировать. Лимиты API служат не только технической мерой защиты, но и бизнес-инструментом, который подталкивает крупных потребителей данных к заключению партнерских соглашений или покупке дорогостоящих корпоративных тарифов, предоставляющих расширенный доступ. Это создает экономическое и правовое напряжение, при котором ограничения официального канала косвенно стимулируют появление «серого» рынка парсинга, с которым hh.ru вынужден бороться уже юридическими методами.

Глава 4: Прямой парсинг: технологии, вызовы и этика

Прямой парсинг HTML-страниц — это альтернативный, неофициальный метод сбора данных, который заключается в имитации действий обычного пользователя или поискового робота. Этот подход позволяет обойти лимиты API, но сопряжен с серьезными техническими и юридическими трудностями.

Принцип работы и технические сложности

Процесс прямого парсинга включает в себя загрузку полного HTML-кода веб-страницы и последующий его анализ для извлечения нужных данных.² Разработчик «объясняет» программе, в каких именно элементах HTML-разметки находится нужная информация (например, «возьми текст из тега <span> с классом vacancy-salary»).

Однако современные сайты, и hh.ru в их числе, активно противодействуют автоматическому сбору данных. Это порождает технологическую «гонку вооружений», где разработчики парсеров постоянно ищут способы обойти новые меры защиты. Основные сложности включают:

Блокировки по IP-адресу: Если с одного IP-адреса поступает аномально большое количество запросов за короткое время, система безопасности сайта блокирует этот адрес. Для обхода используются прокси-серверы — посредники, которые скрывают реальный IP-адрес парсера и позволяют распределять запросы между сотнями и тысячами разных адресов.
CAPTCHA («капча»): Это тест «я не робот», который требует от пользователя выполнить простое для человека, но сложное для программы действие (например, выбрать все изображения с автомобилями). Для автоматического решения капчи используются специальные платные сервисы, что увеличивает стоимость парсинга.
Динамический контент (JavaScript): На многих сайтах часть информации подгружается не сразу, а после определенных действий пользователя (например, прокрутки страницы или нажатия на кнопку «показать еще»). Простой парсер, который загружает только первоначальный HTML-код, не увидит эти данные. Для работы с таким контентом применяются «безголовые» браузеры (headless browsers) — программные комплексы (например, Selenium, Playwright), которые запускают полноценный браузер в фоновом режиме, имитируют действия пользователя и позволяют получить итоговый HTML-код страницы после выполнения всех скриптов.
Изменение верстки сайта: Любое, даже незначительное, изменение в HTML-коде сайта (например, переименование класса у элемента с зарплатой) может «сломать» парсер. Это делает его хрупким и требует постоянной поддержки и доработки, что превращает разовую разработку в постоянную статью расходов.

Анализ robots.txt и этика парсинга

На каждом сайте существует файл robots.txt, в котором владелец ресурса указывает, какие разделы сайта не следует индексировать автоматическим программам (поисковым роботам). Это своего рода «джентльменское соглашение». Изучение файла robots.txt на сайте hh.ru ²² показывает, что компания просит роботов не посещать определенные служебные разделы.

Важно понимать, что robots.txt не имеет юридической силы и не может технически запретить парсинг. Однако его сознательное игнорирование является первым и явным признаком «неэтичного» сбора данных и может быть использовано против парсера в суде как доказательство злого умысла.

В пользовательском соглашении hh.ru прямо запрещает «использование программных средств, имитирующих работу пользователя» и «использование функций парсинга».²³ Это означает, что платформа активно отслеживает и блокирует подобные попытки, используя для этого сложные алгоритмы, которые могут анализировать даже такие параметры, как скорость и траектория движения курсора мыши. Следовательно, любой парсер, созданный для обхода этих правил, по определению является хрупким и требует постоянного обслуживания для адаптации к новым мерам защиты, что создает для бизнеса операционные риски и непредсказуемые затраты.

Пример кода для прямого парсинга (Python)

Ниже приведен упрощенный пример кода, демонстрирующий логику извлечения названий вакансий со страницы поиска hh.ru с помощью библиотек requests и BeautifulSoup4.

Python

import requests from bs4 import BeautifulSoup # URL страницы с вакансиями url = 'https://hh.ru/search/vacancy?text=Python&area=1' # Заголовки, имитирующие запрос от реального браузера headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } # Отправка GET-запроса response = requests.get(url, headers=headers) # Проверка, что запрос успешен if response.status_code == 200: # Создание объекта BeautifulSoup для парсинга HTML soup = BeautifulSoup(response.text, 'html.parser') # Поиск всех тегов 'a' с определенным классом, содержащих ссылки на вакансии # Примечание: классы могут измениться, что сломает парсер. # На момент написания отчета использовался класс 'serp-item__title'. vacancy_links = soup.find_all('a', {'class': 'serp-item__title'}) print(f"Найдено вакансий на странице: {len(vacancy_links)}") # Вывод названий вакансий for link in vacancy_links: print(f"- {link.get_text()}") else: print(f"Ошибка загрузки страницы: {response.status_code}")

Данный код является демонстрационным, его селекторы могут устареть. Он не предназначен для промышленного использования.

Глава 5: Сравнительный анализ подходов

Выбор между использованием официального API и разработкой собственного парсера — это стратегическое решение, которое должно основываться на взвешенной оценке целого ряда факторов. Для наглядности сведем их в единую сравнительную таблицу.

Таблица 4: Сравнение: API против прямого парсинга hh.ru

Критерий	Официальный HeadHunter API	Прямой парсинг HTML-страниц
Легальность	Высокая. Полностью законный и поощряемый платформой способ.	Критически низкая. Прямо запрещено пользовательским соглашением ²³, нарушает права на базу данных и законодательство о ПДн.
Стабильность	Высокая. API имеет версионирование. Изменения вносятся предсказуемо и анонсируются.	Низкая. Парсер ломается при любом изменении верстки сайта, что происходит без предупреждения.
Стоимость разработки	Низкая. Требуется прочитать документацию и написать несколько стандартных запросов.	Средняя/Высокая. Требуется разработка сложной логики обхода блокировок, решения капчи, работы с динамическим контентом.
Стоимость поддержки	Нулевая. API поддерживается и обновляется силами HeadHunter.	Высокая. Требуются постоянные затраты на доработку парсера, оплату прокси-серверов и сервисов решения капчи.
Объем/скорость данных	Ограничены. Скорость и объем сбора данных жестко лимитированы квотами.¹⁸	Потенциально не ограничены. Позволяет собирать данные быстрее и в большем объеме, но только до момента блокировки.
Типы доступных данных	Только разрешенные. Доступны только те данные, которые hh.ru счел нужным предоставить через API.¹⁰	Любые видимые. Можно собрать любую информацию, которая отображается на странице, включая ту, что не доступна через API.
Риски	Минимальные. Риски связаны в основном с превышением лимитов, что ведет к временной блокировке токена.	Критически высокие. Юридические риски (многомиллионные иски), технические (постоянные сбои) и репутационные (обвинения в незаконной деятельности).

Эта таблица однозначно показывает, что, несмотря на кажущееся преимущество прямого парсинга в скорости и объеме получаемых данных, этот подход сопряжен с неприемлемо высокими рисками и затратами. Для любого легально работающего бизнеса единственным разумным выбором является использование официального API.

Часть 3: Правовое поле: навигация по законам и рискам

Вопрос парсинга данных с HeadHunter лежит не столько в технической, сколько в юридической плоскости. В российском правовом поле существует как минимум три уровня защиты, которые делают несанкционированный сбор данных крайне рискованным предприятием. Это пользовательское соглашение самого сайта, законодательство об интеллектуальной собственности (в частности, о базах данных) и федеральный закон о персональных данных.

Глава 6: Пользовательское соглашение hh.ru: прямой запрет на парсинг

Первый и самый очевидный барьер — это правила, установленные самим владельцем ресурса. В документе «Условия использования сайтов» (также известном как оферта), который каждый пользователь принимает по умолчанию, просто заходя на сайт, содержатся пункты, напрямую запрещающие автоматизированный сбор данных.²³

В разделе, посвященном информационной безопасности, пользователю запрещается:

«Использование или попытки использования любого программного обеспечения для навигации или поиска по веб-сайту, за исключением встроенной поисковой системы веб-сайта… или традиционных и общедоступных браузеров».
«Использование программных средств, имитирующих работу пользователя на веб-сайте».
«Использование функций парсинга/программ парсинга».

С юридической точки зрения, использование сайта является акцептом (принятием) условий этой публичной оферты. Следовательно, нарушение этих правил является нарушением договорных обязательств перед ООО «Хэдхантер».

Последствия такого нарушения могут быть различными:

Технические санкции: Блокировка IP-адреса или целой подсети, с которой ведутся запросы. Блокировка учетной записи, если парсинг ведется от имени зарегистрированного пользователя.
Юридические санкции: Предъявление судебного иска с требованием прекратить незаконные действия и возместить убытки. Убытки могут включать, например, затраты на усиление серверной инфраструктуры для противодействия нагрузке, создаваемой парсером.

Хотя нарушение пользовательского соглашения является самым простым для доказывания со стороны hh.ru, это лишь первый и самый «слабый» уровень правовой защиты. Гораздо более серьезные риски лежат в плоскости нарушения федеральных законов.

Глава 7: HeadHunter как база данных: защита интеллектуальной собственности

Сайт HeadHunter, с его миллионами структурированных и систематизированных вакансий и резюме, с точки зрения российского законодательства является не просто сайтом, а объектом интеллектуальной собственности — базой данных. Это понятие закреплено в статье 1260 Гражданского кодекса РФ, которая определяет базу данных как «представленную в объективной форме совокупность самостоятельных материалов…, систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины (ЭВМ)».²⁴

Закон предоставляет базам данных два уровня защиты:

Авторское право составителя: Охраняется творческий вклад в подбор и расположение материалов — то есть структура, дизайн, логика организации данных на сайте.²⁶
Смежное право изготовителя (право sui generis): Это ключевой и самый мощный механизм защиты для таких платформ, как hh.ru. Оно охраняет не творчество, а инвестиции — существенные финансовые, материальные, организационные и иные затраты, которые были вложены в создание и поддержание базы данных.²⁸ Очевидно, что затраты HeadHunter на сбор, проверку, хранение и организацию доступа к миллионам записей колоссальны.

Статья 1334 ГК РФ прямо устанавливает, что никто не вправе без разрешения правообладателя «извлекать из базы данных материалы и осуществлять их последующее использование».³¹ Под «извлечением» понимается перенос на другой носитель «всего содержания базы данных или существенной части составляющих ее материалов».²⁹ Понятие «существенная часть» является оценочным и может трактоваться судом как в количественном (например, парсинг тысяч вакансий), так и в качественном отношении (например, парсинг всех вакансий в узкой, но высокооплачиваемой нише).

Ответственность за нарушение этого права весьма серьезна: правообладатель (в данном случае hh.ru) вправе потребовать от нарушителя по своему выбору либо возмещения убытков, либо выплаты компенсации в размере от 10 тысяч до 5 миллионов рублей.³²

Риск такого иска не является теоретическим. Он подкреплен реальной судебной практикой, которая будет рассмотрена в отдельной главе. Этот прецедент показывает, что суды готовы защищать инвестиции владельцев онлайн-платформ, и hh.ru, в случае спора, сможет опереться на уже сформированную правовую позицию.

Глава 8: Персональные данные: главный правовой барьер

Если парсинг вакансий сопряжен с риском нарушения правил сайта и прав на базу данных, то парсинг резюме выводит ситуацию на совершенно иной уровень риска, напрямую затрагивая Федеральный закон № 152-ФЗ «О персональных данных». Как уже было показано в Главе 2, резюме содержат огромное количество информации, которая однозначно квалифицируется как персональные данные (ПДн): ФИО, контакты, фото, сведения об образовании и опыте работы.¹²

Ключевым моментом, который необходимо понимать каждому, кто рассматривает возможность парсинга резюме, являются поправки к ФЗ-152, вступившие в силу 1 марта 2021 года.³³ Эти поправки фактически ликвидировали прежнее понятие «общедоступных персональных данных».³⁵ До 2021 года существовала лазейка, позволявшая утверждать, что если человек сам разместил свои данные в открытом доступе (например, в соцсети или на сайте с резюме), то их можно свободно собирать и использовать.

Теперь это не так. Новый порядок, установленный статьей 10.1 ФЗ-152, гласит, что для обработки персональных данных, «разрешенных субъектом для распространения», оператор (тот, кто собирает данные) обязан получить от человека отдельное, явное и конкретное согласие именно на распространение и дальнейшую обработку. Простого факта публикации данных самим человеком больше недостаточно.

Это создает непреодолимый барьер для легального парсинга резюме. Чтобы законно спарсить даже 1000 резюме, компания должна была бы предварительно найти каждого из этих 1000 соискателей и получить от них письменное согласие на сбор и обработку их данных из профиля на hh.ru. Очевидно, что в промышленных масштабах это невыполнимая задача.

Таким образом, любой несанкционированный массовый сбор данных из резюме является прямым нарушением ФЗ-152. Ответственность за такие нарушения постоянно ужесточается и может быть весьма суровой.

Таблица 5: Виды ответственности за нарушение ФЗ-152 (ст. 13.11 КоАП РФ)

Состав правонарушения	Субъект	Размер штрафа (руб.)	Источник
Обработка ПДн без письменного согласия субъекта (когда оно обязательно, например, для биометрии — фото)	Граждане	10 000 – 15 000	³⁶
	Должностные лица	100 000 – 300 000	³⁶
	Юридические лица	300 000 – 700 000	³⁶
Обработка ПДн в случаях, не предусмотренных законодательством, либо обработка, несовместимая с целями сбора	Граждане	2 000 – 6 000	³⁶
	Должностные лица	10 000 – 20 000	³⁶
	Юридические лица	60 000 – 100 000	³⁶
Повторное совершение указанного выше правонарушения	Юридические лица	до 18 000 000 (оборотный штраф)	³⁶
Незаконный сбор и распространение сведений о частной жизни (ст. 137 УК РФ)	—	до 200 000 или лишение свободы до 2 лет	³⁶

Как видно из таблицы, финансовые риски для юридического лица колоссальны и могут достигать миллионов рублей, не говоря уже о потенциальной уголовной ответственности для руководителей. Это делает любой бизнес-проект, основанный на парсинге резюме, незаконным по своей сути и фундаментально неустойчивым. Единственным законным оператором этих персональных данных является само ООО «Хэдхантер», которое получает необходимое согласие от пользователя в момент регистрации на сайте.⁴

Глава 9: Судебная практика как индикатор рисков: дело «ВКонтакте» против «Дабл Дата»

Анализ законов и пользовательских соглашений может показаться теорией, но в России уже существует знаковый судебный прецедент, который наглядно демонстрирует реальность правовых рисков парсинга. Речь идет о многолетнем споре между социальной сетью «ВКонтакте» и компанией «Дабл Дата» (дело № А40-18827/2017).³⁷

Суть спора

Компания «Дабл Дата» разработала сервис, который собирал (парсил) данные из открытых профилей пользователей «ВКонтакте» и на их основе формировал скоринговые модели для банков и страховых компаний.
Позиция «Дабл Дата» (ответчик): Мы не нарушаем закон, так как собираем только общедоступные данные, которые пользователи сами разместили в открытом доступе. Мы не взламываем закрытые профили и не нарушаем приватность.
Позиция «ВКонтакте» (истец): Наш сайт является сложной базой данных, в создание и поддержание которой мы вложили огромные средства. «Дабл Дата» без разрешения извлекает из этой базы существенную часть материалов, нарушая наше исключительное право изготовителя базы данных (ст. 1334 ГК РФ). Кроме того, это нарушает правила пользования сайтом.

Итоговое решение суда

Дело прошло несколько инстанций, но итоговая позиция, сформированная Судом по интеллектуальным правам, была однозначной: суд встал на сторону «ВКонтакте».³⁷ Ключевые выводы суда, которые имеют прямое отношение к парсингу hh.ru:

Сайт является базой данных: Суд подтвердил, что крупная социальная сеть (или, по аналогии, сайт с вакансиями) является базой данных, защищаемой смежным правом изготовителя.
«Общедоступность» не означает «разрешение на извлечение»: Это главный вывод дела. Суд четко разграничил право пользователя на доступ к отдельной странице и право третьих лиц на массовое автоматизированное извлечение контента. Тот факт, что данные публичны, не дает права их копировать в промышленных масштабах и использовать в коммерческих целях без согласия владельца платформы.
Нарушение права изготовителя: Суд признал, что действия «Дабл Дата» по систематическому извлечению данных являются нарушением исключительного права «ВКонтакте» как изготовителя базы данных.

Проекция выводов на HeadHunter

Этот судебный кейс фактически «похоронил» главный аргумент всех, кто занимается парсингом: «если данные лежат в открытом доступе, я могу их брать». Он создал в России мощный судебный прецедент. Если HeadHunter решит подать в суд на компанию, занимающуюся парсингом их сайта, их юридическая позиция будет чрезвычайно сильной. Аргументация «ВКонтакте» практически полностью применима к hh.ru:

Сайт hh.ru — это база данных, требующая огромных инвестиций.
Парсинг — это незаконное извлечение существенной части материалов из этой базы данных.
Пользовательское соглашение прямо запрещает такие действия.

Учитывая наличие прецедента по делу «ВКонтакте», вероятность того, что hh.ru выиграет такой суд, стремится к 100%. Это превращает теоретические правовые риски в весьма осязаемую угрозу судебного преследования и многомиллионных компенсаций.

Часть 4: Итоговые выводы и стратегические рекомендации

Глава 10: Синтез рисков и выработка безопасной стратегии

Всесторонний анализ технических методов и правового поля позволяет сделать однозначный вывод: несанкционированный парсинг данных с платформы HeadHunter в российской юрисдикции является деятельностью с критически высоким уровнем риска. Эти риски можно разделить на три взаимосвязанные категории.

Сводный анализ рисков

Юридические риски (самые серьезные):

Нарушение ФЗ-152 «О персональных данных»: При парсинге резюме этот риск является абсолютным и практически неизбежным. Он влечет за собой административную ответственность с огромными штрафами для юридических лиц (до 18 миллионов рублей за повторное нарушение) и потенциальную уголовную ответственность для должностных лиц.³⁶
Нарушение исключительных прав на базу данных (ст. 1334 ГК РФ): Применимо к парсингу как вакансий, так и резюме. Судебный прецедент по делу «ВКонтакте» против «Дабл Дата» ³⁷ делает исход потенциального иска от hh.ru практически предрешенным в пользу правообладателя. Ответственность — компенсация до 5 миллионов рублей.³²
Нарушение пользовательского соглашения (оферты) hh.ru: Наименее серьезный, но самый простой для доказывания риск, который может стать основанием для блокировок и судебного иска о возмещении убытков.²³

Технические риски:

Нестабильность и хрупкость: Парсер, работающий в обход защит, требует постоянной доработки и адаптации к изменениям на сайте. Это приводит к нестабильности потока данных и непредвиденным простоям.
Высокая стоимость поддержки: Затраты на поддержание работоспособности парсера (оплата труда разработчиков, покупка прокси-серверов, сервисов распознавания капчи) могут оказаться значительно выше, чем стоимость легального доступа к данным через API или корпоративные тарифы.

Репутационные риски:

Ущерб бренду: Публичный скандал или судебное разбирательство, связанное с обвинениями в незаконном сборе данных (особенно персональных), может нанести непоправимый ущерб репутации компании, отпугнуть клиентов и партнеров.

Стратегические рекомендации

На основе проведенного анализа можно сформулировать четкие и однозначные рекомендации для любого бизнеса, который планирует работать с данными HeadHunter.

Золотое правило: Использовать только официальный HeadHunter API. Это единственный легальный, технически стабильный и безопасный способ получения данных с платформы.¹⁴ Необходимо строить свои процессы с учетом лимитов и ограничений, которые накладывает API.¹⁹ Если этих лимитов недостаточно, следует вступать в прямой диалог с HeadHunter для обсуждения партнерских программ или покупки корпоративных тарифов, а не пытаться обойти правила.
Красная линия: Полный отказ от парсинга резюме. Категорически запрещено инициировать любые проекты, связанные с автоматизированным сбором данных из резюме или любых других данных, которые могут быть квалифицированы как персональные. Юридические и финансовые риски, связанные с нарушением ФЗ-152, несоизмеримо превышают любую потенциальную выгоду от этих данных.
Этика парсинга (применительно к другим сайтам, где это не запрещено): В тех редких случаях, когда парсинг может быть оправдан (например, для сбора обезличенных данных с сайтов, не имеющих API и прямого запрета в оферте), следует придерживаться принципов «цифровой гигиены»:

Всегда проверять и уважать директивы в файле robots.txt.
Не создавать чрезмерную нагрузку на сервер, устанавливая разумные задержки между запросами.
Четко идентифицировать своего бота в заголовке User-Agent, чтобы администрация сайта могла при необходимости связаться с владельцем.

Заключение

Подводя итог, можно с уверенностью заявить, что эпоха «дикого запада» в области парсинга данных в России подходит к концу. Законодательство и судебная практика однозначно встают на защиту прав владельцев крупных баз данных и, что еще важнее, на защиту персональных данных граждан.

Бизнес-модели, построенные на несанкционированном извлечении информации с таких платформ, как HeadHunter, являются фундаментально неустойчивыми и несут в себе экзистенциальные риски. Погоня за «бесплатными» данными может обернуться многомиллионными штрафами, судебными издержками и крахом репутации. В современных реалиях единственной разумной, дальновидной и стратегически верной политикой является работа в строгом соответствии с законом и правилами, установленными платформами, то есть использование официальных API и построение честных партнерских отношений.

Источники

Парсинг: что это такое | Блог Roistat, дата последнего обращения: июля 24, 2025, https://roistat.com/rublog/parsing/
Парсинг данных и парсер: что это такое, что значит парсить в программировании, программы в 2024 году — ROMI center, дата последнего обращения: июля 24, 2025, https://romi.center/ru/learning/article/what-is-data-parsing
Обзор платформы hh.ru: Поиск работы и сотрудников, резюме, вакансии и рынок труда, дата последнего обращения: июля 24, 2025, https://znanierussia.ru/articles/HeadHunter
Работа в Москве, поиск персонала и публикация вакансий — hh.ru, дата последнего обращения: июля 24, 2025, https://hh.ru/
Работа программистом в Москве: свежие вакансии на hh.ru, дата последнего обращения: июля 24, 2025, https://hh.ru/vacancies/programmist
Работа программистом-стажером в Москве: свежие вакансии на hh.ru, дата последнего обращения: июля 24, 2025, https://hh.ru/vacancies/programmist_stazher
Работа программистом C++ в Москве: свежие вакансии на hh.ru, дата последнего обращения: июля 24, 2025, https://hh.ru/vacancies/programmist_c_plus_plus
дата последнего обращения: января 1, 1970, https://hh.ru/vacancy/122909992?query=%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%81%D1%82&hhtmFrom=vacancy_search_list
Заполняем резюме правильно — HH.ru, дата последнего обращения: июля 24, 2025, https://hh.ru/article/news-3180
api/docs_eng/vacancies.md at master · hhru/api — GitHub, дата последнего обращения: июля 24, 2025, https://github.com/hhru/api/blob/master/docs_eng/vacancies.md
Скачать образец резюме — Инженерное кадровое агентство, дата последнего обращения: июля 24, 2025, https://ca-em.ru/wp-content/uploads/2018/10/resume-hh-obrazec.docx
Виды персональных данных по закону №152-ФЗ в 2025 году — Компания Портал-Юг, дата последнего обращения: июля 24, 2025, https://portal-yug.ru/blog/vidy-personalnykh-dannykh-po-zakonu-152-fz/
Рубрика: О персональных данных — МедиаПраво.ком, дата последнего обращения: июля 24, 2025, https://mediapravo.com/category/privacy
api/docs_eng/README.md at master · hhru/api — GitHub, дата последнего обращения: июля 24, 2025, https://github.com/hhru/api/blob/master/docs_eng/README.md
HeadHunter API — HH.ru, дата последнего обращения: июля 24, 2025, https://api.hh.ru/
PHP library that provides a friendly API interface for HeadHunter (hh.ru) service — GitHub, дата последнего обращения: июля 24, 2025, https://github.com/seregazhuk/php-headhunter-api
API hh.ru: HR-автоматизация теперь ещё доступнее, дата последнего обращения: июля 24, 2025, https://hh.ru/article/31102
Парсим API HeadHunter с помощью R / Хабр — Habr, дата последнего обращения: июля 24, 2025, https://habr.com/ru/articles/830424/
Интеграция с HH (HeadHunter): Часто задаваемые вопросы, проблемы и их решение, дата последнего обращения: июля 24, 2025, https://it-solution.kdb24.ru/public/hhintegration/a114647/
hh.ru Job Scraper API — Apify, дата последнего обращения: июля 24, 2025, https://apify.com/easyapi/hh-ru-job-scraper/api
HeadHunter Russia Job Scraper hh.ru — Cheap API — Apify, дата последнего обращения: июля 24, 2025, https://apify.com/scrapestorm/headhunter-russia-job-scraper-hh-ru—cheap/api
дата последнего обращения: января 1, 1970, https://hh.ru/robots.txt
Web-sites Use Terms and Conditions — HH.ru, дата последнего обращения: июля 24, 2025, https://hh.ru/article/29030
ГК РФ Статья 1260. Переводы, иные производные произведения. Составные произведения — Audit-it.ru, дата последнего обращения: июля 24, 2025, https://www.audit-it.ru/gk/1260.html
Базы данных и сервисы онлайн-классифайдов: пользование базой и использование информации — Журнал Суда по интеллектуальным правам, дата последнего обращения: июля 24, 2025, https://ipcmagazine.ru/articles/1729189/
Статья 5. Авторское право на базу данных — КонсультантПлюс, дата последнего обращения: июля 24, 2025, https://www.consultant.ru/document/cons_doc_LAW_1007/20dd6be27a4c9376b1574d10040947a021f9327b/
ГК РФ Статья 1260. Переводы, иные производные произведения. Составные произведения — КонсультантПлюс, дата последнего обращения: июля 24, 2025, https://www.consultant.ru/document/cons_doc_LAW_64629/26eaf5de7ca59025f4388fe2980d3dd03dd5e775/
База данных: охрана, структура, правовой статус — Nevsky IP Law, дата последнего обращения: июля 24, 2025, https://nevskylaw.ru/glossary-ip/baza-dannyh-ip
Статья 1334. Исключительное право изготовителя базы данных, дата последнего обращения: июля 24, 2025, https://legalacts.ru/kodeks/GK-RF-chast-4/razdel-vii/glava-71/ss-5/statja-1334/
Ст. 1334 ГК РФ. Исключительное право изготовителя базы данных, дата последнего обращения: июля 24, 2025, https://rulaws.ru/gk-rf-chast-4/Razdel-VII/Glava-71/paragraph-5/Statya-1334/
Статья 1334 ГК РФ. Исключительное право изготовителя базы данных — PPT.RU, дата последнего обращения: июля 24, 2025, https://ppt.ru/kodeks/gk/st-1334
Парсинг сайтов: законно или нет? Юридические способы защиты — Ezybrand, дата последнего обращения: июля 24, 2025, https://ezybrand.ru/blog/kak-zashhitit-svoj-veb-resurs-ot-kopirovaniya/
Парсинг общедоступных данных запрещен с 1 марта — Habr, дата последнего обращения: июля 24, 2025, https://habr.com/ru/articles/544788/
С 1 марта в России запретили парсинг общедоступных персональных данных — Tproger, дата последнего обращения: июля 24, 2025, https://tproger.ru/news/s-1-marta-v-rossii-zapretili-parsing-obshhedostupnyh-dannyh
ПОПРАВКИ К ФЕДЕРАЛЬНОМУ ЗАКОНУ «О ПЕРСОНАЛЬНЫХ ДАННЫХ»: ЗАПРЕТ ПАРСИНГА И ЛИКВИДАЦИЯ ПОНЯТИЯ «ОБЩЕДОСТУПНЫЕ ДАННЫЕ» — репозиторий РУДН, дата последнего обращения: июля 24, 2025, https://repository.rudn.ru/ru/records/article/record/92811/
Что представляет собой Федеральный закон «О персональных данных» N 152-ФЗ и какая ответственность за его нарушения — RTM Group, дата последнего обращения: июля 24, 2025, https://rtmtech.ru/articles/152-fz-otvetstvennost/
Дело «ВКонтакте» vs «Дабл Дата» — Legal Insight, дата последнего обращения: июля 24, 2025, https://legalinsight.ru/articles/delo-vkontakte-vs-dabl-data/

Администратор

Next Парсинг аудитории в Telegram: Полное техническое и правовое исследование »

Previous « Защита вашего сайта от парсинга: Полное руководство по лучшим решениям

Published by

Администратор

Tags: HeadHunterhh.ruФЗ-152ХедХантер

7 месяцев ago

Как парсить сайты с защитой — современные технологии и методы обхода блокировок

Краткое содержание Процесс извлечения данных из интернета в 2025 году стал значительно труднее из-за внедрения…

2 недели ago

Бизнес практика

Как получить грант на ИТ- стартап: полный гид по фондам, программам и требованиям

Данное исследование представляет собой детальный разбор механизмов государственного финансирования для технологических компаний в условиях реализации…

3 недели ago

Бизнес практика

Как использовать ИИ для создания статей в блог с целью SEO- продвижения вашего сайта

К началу 2025 года поисковое пространство претерпело качественные изменения. Традиционная выдача из десяти синих ссылок…

4 недели ago

Безопасность в сети

Чем заменить Cloudflare? ТОП-альтернативы для бизнеса

Деконструкция "Cloudflare-модели": Синергия базовых услуг как конкурентное преимущество Для проведения всестороннего анализа аналогов Cloudflare необходимо…

1 месяц ago

Бизнес практика

Налоговый шторм 2026: полный гид по изменениям для ИТ-бизнеса, резидентов Сколково и всех, кто работает с цифрой

Саммари для тех, кто спешит Если вы читаете этот текст, значит, вы уже почувствовали: эпоха…