Парсинг сайтов всегда вызывает сомнения относительно его законности в России (и в других странах). Мы довольно долго занимаемся этим бизнесом и подготовили ответы на ваши наиболее часто задаваемые вопросы:

Что такое парсинг сайтов?

Парсить — сбор и систематизация информацию, размещенную на определенных сайтах, с помощью специальных программ, автоматизирующих процесс. 

Парсинг используется для:

  • Анализа ценовой политики. Чтобы понять среднюю стоимость тех или иных товаров на рынке, удобно использовать данные по конкурентам. Однако если это сотни и тысячи позиций, собрать их вручную оперативно невозможно.
  • Отслеживания изменений. Парсинг можно осуществлять на регулярной основе, например, каждую неделю, выявляя на что повысились цены в среднем по рынку и какие новинки появились у конкурентов.
  • Наведения порядка на своём сайте. Найти несуществующие страницы, дубли, неполное описание, отсутствие определенных характеристик или несоответствие данных по складским остаткам тому, что отображается на сайте. 
  • Наполнения карточек товаров в интернет-магазине. Если сайт новый, счёт обычно идёт даже не на сотни. Вручную на это уйдёт непозволительно количество времени. Часто используют парсинг с иностранных сайтов, переводят полученные тексты автоматизированным методом, после чего получают практически готовые описания. 
  • Получения баз потенциальных клиентов. Существует парсинг, связанный с составлением, например, списка лиц, принимающих решения, в той или иной отрасли и городе. Для этого может применяться личный кабинет на сайтах поиска работы с доступом к актуальным и архивным резюме. Этичность дальнейшего использования подобной базы каждая компания определяет самостоятельно.
Парсинг сайтов в России - законен?

Да, абсолютно. Мы проводили консультации с рядом юридических компаний и у нас есть правовое заключение о том, что парсинг сайтов и мониторинг цен товаров с сайтов в сети Интернет — абсолютно правовое действие, т.к. вся информация находится в открытом доступе. Название товара и цена (артикул, категория и т.п.) не могут является объектами авторского права – это общедоступная информация (фактическая).

Сервис работает по полной аналогии с человеком, который может сделать эту работу самостоятельно, просто наш продукт значительно облегчает эту рутинную задачу! Более того, мы помогаем повысить конкуренцию, т.к. даже небольшой бизнес сможет воспользоваться данными парсинга крупных продавцов и стать более конкурентным на рынке за счет ценового и ассортиментного анализа.

Вы сильно нагружаете сайты, товары на которых мониторите?

Нет. Мы прекрасно понимаем, что это может повредить бизнесу компании, которой принадлежит сайт и наш сервис парсинга сайтов работает в максимально «щадящем» режиме. Так, мы стараемся обновлять цены только в ночное время, когда на сайты обычно минимальная нагрузка. Далее, сервис не берет часто информацию о ценах на все имеющиеся товары, а только на те, которые нужно отслеживать.

Все это приводит к тому, что компании даже не замечают работу сервиса, т.к. он абсолютно не влияет на работоспособность и доступность их ресурса в сети Интернет. Можно провести аналогию, что работает пять операторов одновременно, которые вручную записывают в Excel цены с одного сайта — вряд ли это хоть как-то скажется на его работоспособности…

Вы парсите закрытую информацию на сайтах?

Нет. Мы полностью следуем инструкциям, прописанным для поисковых систем Yandex/Google в файлах robots.txt на сайтах, которые парсим. Мы не занимаемся сбором закрытой (конфиденциальной, защищаемой) информации и никогда не будем это осуществлять.

Мониторинг цен и парсинг сайтов — это не взлом сайтов с целью получения доступа к какой-то коммерческой информации. Каждый посетитель сайта, продающего товары, и так видит цены (или услуги) в открытом доступе, даже без регистрации. Наша задача — повторить работу поисковых систем Яндекс и Google но не для всех сайтов в сети Интернет, а только для тех, товары или услуги которых следует отслеживать.

Есть ли ограничение на количество товаров у конкурентов для мониторинга?

Нет. Но чем больше товаров, тем больше времени сервису может понадобиться на регулярный сбор цен (учитывая тот факт, что сбор не должен помешать работе сайта).

Обычно, как показывает наша практика, 10 000 SKU отслеживаются за 5-6 часов (при регулярном мониторинге изменения цен на сайте вашего конкурента). Нет ограничений и по количеству сайтов, которые можно парсить для сбора информации.

У нас есть клиенты, которые отслеживают (парсят) до 15 сайтов- конкурентов одновременно и получают оперативно отчеты об изменениях цен, ассортимента и т.п. Естественно, от количества конкурентов будет меняться цена на услуги парсинга.

Можно ли парсить сайты, не относящиеся к категории Интернет-магазины?

Да. Но обратите внимание, что мы работаем строго в рамках закона — собирается только открытая информация, которая доступна любому пользователю сети Интернет. Технически наши роботы могут регулярно собирать любую информацию с любых сайтов в сети Интернет и записывать ее в удобном формате (CSV, EXCEL, XML и т.п.). Но сложность и стоимость такой работы зависит от источника и обсуждается отдельно.

Можно ли парсить картинки и описания товаров?

Технически парсить изображения и описания (товаров, услуг) не является проблемой. Но надо отметить, что эта информация может быть объектом авторского права и парсинг (а точнее дальнейшее использование этой информации) может нарушать закон.

А можно парсить под паролем?

Да. Но мы попросим предоставить нам логин и паролья для доступа. Фактически, парсинг под паролем ничем не отличается от обычного парсинга данных, разве что наш сервис автоматически зарегистрируется на сайте.

Важно — мы не занимаемся подбором паролей для взлома закрытого доступа, мы оказываем услугу по автоматизированному сбору информации в ваших интересах и под вашим логином и паролем. Иными словами, мы просто оптимизируем работу вашего персонала, повышая конкурентоспособность вашего бизнеса.

Нам нужно парсить персональные данные!

Друзья, мы не занимаемся хакингом (взломом) сайтов и т.п. Мы не подбираем пароли, не собираем персональную информацию. Все наши парсеры работают по полной аналогии с роботами Яндекс или Гугл. Мы собираем только открытую (!) публично-доступную информацию.

А как мониторить цены?

Мониторинг цен — это сведение результатов парсинга двух или более сайтов в единую удобную табличку Excel ?. Исходя из этого, вначале нужно спарсить информацию, а затем свести ее воедино. В этом процессе есть нюансы, но да — мы это делаем для многих клиентов…

Вы работаете по безналичному расчету?

Только так мы и работаем! Мы поддерживаем ЭДО СБИС.

Нам нужно парсить резюме с сайта ХедХантер - поможете?

Обращаем ваше внимание, что мы можем парсить сайты только под вашим логином и паролем, оказывая услугу по автоматизированному сбору резюме. Мы не занимаемся взломом сайтов или подбором паролей. Наша цель — упростить сбор информации автоматизированными методами. И да, мы можем парсить ХедХантер учитывая сказанно выше.

Правовое обоснование парсинга отзывы клиентов

скачайте примеры парсинга

0.001,799.00
0.002,999.00

СТРОИТЕЛЬНЫЕ КОМПАНИИ

БАЗА СТРОИТЕЛЬНЫХ КОМПАНИЙ РОССИИ

0.001,599.00

МАРКЕТПЛЕЙСЫ

ЯНДЕКС.МАРКЕТ

0.002,499.00

WILDBERRIES

WILDBERRIES

0.001,999.00

МАРКЕТПЛЕЙСЫ

ОЗОН.РУ

0.001,999.00
0.001,299.00

наши публикации по теме парсинга сайтов

наш канал про ит-бизнес в россии