Позвоните нам

+7 (495) 215-53-16
+7 (812) 748-20-96

Наш адрес:

Санкт-Петербург, Заозерная ул. 8

График работы

пн-пт: 08.00 - 23.00, сб-вс: отдыхаем :)
26. 02. 2019   ·   Комментарии: 0   ·

Лучшие бесплатные и платные инструменты для парсинга сайтов и товаров…

Приложения для парсинга сайтов автоматизируют сбор данных через интернет. Эти программы обычно попадают в категории инструментов, которые вы устанавливаете на своем компьютере или в браузере вашего компьютера (Chrome или Firefox), или сервисов, предназначенных для самостоятельной работы без помощи разработчиков. Веб-инструменты парсинга (бесплатные или платные) и веб-сайты/приложения для работы в режиме самообслуживания могут пригодиться, если ваши требования к данным невелики, а исходные веб-сайты несложны.

Однако, если сайты, которые вы собираетесь парсить, являются сложными или вам нужно много данных с одного или нескольких сайтов, эти инструменты плохо масштабируются. Стоимость этих инструментов и сервисов меркнет по сравнению с затратами времени и усилий, которые требуются для внедрения парсеров с использованием этих инструментов, а также в сравнении со сложностью обслуживания и эксплуатации этих программ. Для таких случаев поставщик с полным циклом обслуживания — лучший и экономичный выбор.

В этой статье мы сначала дадим краткое описание инструментов, а затем быстро рассмотрим, как эти инструменты работают, чтобы вы могли быстро оценить, подходят ли они для вас. Обратим ваше внимание на Российский сервис парсинга сайтов https://xmldatafeed.com, который отличается тем, что на ежедневной основе предоставляет итоги парсинга более чем 300 крупнейших сайтов (Интернет- магазинов). Данные можно получить на портале, после бесплатной регистрации.

 

Итак, обзор лучших инструментов для парсинга сайтов и Интернет-магазинов:

  1. Web Scraper (расширение Google Chrome)
  2. Scrapy
  3. Data Scraper (расширение Google Chrome)
  4. Scraper (расширение Google Chrome)
  5. ParseHub
  6. OutWitHub
  7. FMiner
  8. Dexi.io
  9. Octoparse
  10. Web Harvey
  11. PySpider
  12. Apify SDK
  13. Content Grabber
  14. Mozenda
  15. Cheerio
  • Web Scraper

Web Scraper — это отдельное расширение для Chrome, которое является отличным инструментом для извлечения данных с веб-страниц. Используя расширение, вы можете настроить план обхода сайтов, то есть задать логику для перемещения парсера и указать данные, которые будут извлечены. С помощью файлов Sitemap вы можете легко перемещаться по сайту так, как вам нужно, и данные впоследствии могут быть экспортированы в формате CSV.

Смотрите также:

  1. Как парсить списки Amazon BestSeller с помощью расширения Web Scraper Chrome (на английском)
  2. Как собрать исторические данные из Twitter (на английском)
  3. Как собрать данные о товарах и ценах от Walmart (на английском)
Нужны данные для вашего бизнеса?

Бесплатно регистрируйтесь на нашем портале https://ru.xmldatafeed.com и используйте ежедневные итоги парсинга крупнейших сайтов России (товары и услуги)!

  • Scrapy

Scrapy — это фреймворк с открытым исходным кодом на Python, используемый для создания парсеров. Он предоставляет вам все инструменты, необходимые для эффективного извлечения данных с сайтов, обработки их в нужном вам виде и сохранения их в необходимых структуре и формате. Одним из его главных преимуществ является то, что он построен на основе асинхронной сетевой структуры Twisted. Если у вас большой проект по поиску в сети и вы хотите сделать его максимально эффективным и гибким, вам обязательно следует использовать Scrapy. Он также может быть использован для широкого спектра задач, от интеллектуального анализа данных до мониторинга и автоматического тестирования. Вы можете экспортировать данные в форматы JSON, CSV и XML. Отличительная черта Scrapy — это простота использования,  подробная документация и активное сообщество. Если вы знакомы с Python, вы сможете начать работу всего за пару минут. Он работает в системах Linux, Mac OS и Windows. 

Чтобы узнать, как парсить сайты с помощью Scrapy, вы можете обратиться к нашему руководству:

Как парсить данные продукта Alibaba  с помощью Scrapy

  • Data Scraper

Data Scraper — это простой инструмент для извлечения данных из Интернет- сайтов, который позволяет извлекать данные с одной страницы в файлы формата CSV и XSL. Это персональное расширение для браузера, которое помогает вам преобразовывать данные в чистый табличный формат. Вам нужно будет установить плагин в браузере Google Chrome. Бесплатная версия позволяет парсить 500 страниц в месяц, и, если вы работаете с большим объёмом данных, вам нужно будет перейти на платную подписку. Скачать расширение можно по ссылке здесь.

  • Scraper

Scraper — это расширение Chrome для парсинга простых веб-страниц. Он прост в использовании и поможет вам сканировать содержимое сайта и загружать результаты в Google Docs. Он может извлекать данные из таблиц и преобразовывать их в структурированный формат. Вы можете скачать расширение по ссылке здесь.

  • Parsehub

ParseHub — это инструмент для парсинга сайтов и Интернет- магазинов, который предназначен для сканирования одного или нескольких веб-сайтов, которые используют JavaScript, AJAX, файлы cookie, сеансы и редиректы. Приложение может анализировать и получать данные с сайтов и преобразовывать их в структурированную информацию. Он использует технологию машинного обучения для распознавания самых сложных документов и создает выходной файл в формате JSON, CSV или Google Sheets.

Parsehub — это приложения для персональных компьютеров, доступное для пользователей Windows, Mac и Linux, и работает как расширение Firefox. Удобное веб-приложение может быть встроено в браузер и имеет хорошо написанную документацию. Оно имеет все расширенные функции, такие как нумерация страниц, бесконечная прокрутка страниц, всплывающие окна и навигация. Вы даже можете визуализировать данные из ParseHub в Tableau.

Бесплатная версия имеет ограничение в 5 проектов с 200 страницами за запуск. Если вы покупаете платную подписку, вы можете получить 20 личных проектов с 10 000 страниц на сканирование и ротацию IP.

  • OutWitHub

OutwitHub это парсер данных, встроенный в веб-браузер. Если вы хотите пользоваться им в виде расширения, то его можно установить из магазина расширений Firefox. Если же хотите использовать автономное приложение, вам просто нужно следовать инструкциям, запустив приложение. OutwitHub позволяет вам извлечь данные из интернета и совершенно не требует навыков программирования. Это отлично подходит для сбора данных, которые могут быть недоступны.

OutwitHub — это бесплатный инструмент, который является отличным вариантом, если вам нужно быстро извлечь данные с сайта. Благодаря своим функциям автоматизации, он автоматически просматривает серию веб-страниц и выполняет задачи извлечения. Вы можете экспортировать данные в различные форматы (JSON, XLSX, SQL, HTML, CSV и т.д.).

  • FMiner

FMiner представляет собой визуальный инструмент для парсинга сайтов и Интернет-магазинов и захвата экрана при веб-серфинге. Интуитивно понятный пользовательский интерфейс позволяет быстро использовать мощный механизм интеллектуального анализа данных для извлечения данных с сайтов. В дополнение к основным функциям парсинга веб-страниц в нём также есть обработка AJAX/Javascript и решение CAPTCHA. Его можно запускать как в Windows, так и в MacOS, и он выполняет парсинг с помощью встроенного браузера. Предоставляется 15-дневная бесплатная версия, впоследствии вы можете выбрать платную подписку.

  • Dexi.io

Dexi (ранее известный как CloudScrape) поддерживает сбор данных с любого сайта и не требует загрузки дополнительных приложений. Приложение предоставляет различные типы роботов для парсинга данных — “краулеры”, они же поисковые роботы (от англ. crawlers), “экстракторы”, скрипты для извлечения данных из страниц (от англ. extractors), “автоботы” (от англ. autobots) и скрипты-“вытяжки” (от англ. pipes). Роботы-экстракторы являются наиболее продвинутыми, поскольку они позволяют вам выбирать каждое действие, которое робот должен выполнять — например, нажатие кнопок и извлечение скриншотов.

Приложение предлагает анонимные прокси, чтобы скрыть вашу личность. Dexi.io также предлагает ряд интеграций со сторонними сервисами. Вы можете загрузить данные непосредственно в хранилища Google Drive и Box.net или экспортировать данные в формате JSON или CSV. Dexi.io  хранит ваши данные на своих серверах в течение 2 недель перед их архивированием. Если вам необходимо извлечь большой объём данных, то вы всегда можете получить платную версию.

  • Octoparse

Octoparse — это инструмент для визуального анализа, который легко понять. Его простой интерфейс позволяет выбрать указателем и кликом компьютерной “мышки” те поля, которые нужно извлечь с веб-сайта. Парсер может обрабатывать  как статические, так и динамические веб-сайты, использующие AJAX, JavaScript, файлы cookie и т.д. Приложение также предлагает облачную платформу, позволяющую извлекать большие объемы данных. Вы можете экспортировать извлеченные данные в TXT, CSV, HTML или форматы Microsoft Excel (XLSX). Бесплатная версия позволяет вам создать до 10 поисковых роботов, но с платной подпиской вы получите больше функций, таких как API, а также множество анонимных IP-прокси, которые ускорят процесс извлечения и получения большого объема данных в режиме реального времени.

  • Web Harvey

Визуальный веб-парсер WebHarvey содержит в себе встроенный браузер, который позволяет “вытягивать” данные с веб-страниц. Его функция “укажи и кликни” позволяет пользователю просто выбрать необходимый контент, который программа извлечет и сохранит. Преимущество этого парсера в том, что вам не нужно писать какой-либо код. Данные могут быть сохранены в файлы CSV, JSON или XML, а также храниться в базе данных SQL. В WebHarvey есть многоуровневая функция сканирования категорий, которая может отслеживать ссылки на каждом уровне и извлекать данные со страниц списков. Инструмент позволяет использовать регулярные выражения, предлагая большую гибкость. Вы можете настроить прокси-серверы, которые помогут вам поддерживать уровень анонимности, скрывая ваш IP и извлекая данные с веб-сайтов.

  • PySpider

Веб-краулер PySpider — это поисковый робот, написанный на Python. Он поддерживает сайта с  Javascript и имеет распределенную архитектуру. Это даёт вам возможность парсить сайт в несколько потоков.  PySpider может хранить данные в выбранном вами серверном решении, таком как базы данных MongoDB, MySQL, Redis и т. д. Вы можете использовать RabbitMQ, Beanstalk и Redis в качестве накопителя сообщений.

Одним из преимуществ PySpider является простой в использовании пользовательский интерфейс, где вы можете редактировать сценарии, отслеживать текущие задачи и просматривать результаты. Данные могут быть сохранены в форматах JSON и CSV. Если вы работаете с веб-интерфейсом, попробуйте PySpider как веб-парсер, он будет разумным решением. Он также поддерживает тяжёлые сайты с AJAX-технологией.

  • Apify

Apify является библиотекой Node.js, которая во многом похожа на Scrapy, позиционирующая себя как универсальная библиотека для парсинга веб-страниц в JavaScript, с поддержкой Puppeteer, Cheerio и многих других. Благодаря таким уникальным функциям, как RequestQueue и AutoscaledPool, вы можете начать с нескольких URL-адресов, а затем рекурсивно переходить по ссылкам на другие страницы и запускать задачи парсинга с максимальной пропускной способностью системы. Доступные форматы данных: JSON, JSONL, CSV, XML,XLSX или HTML, доступен также и селектор CSS. Он поддерживает любой тип веб-сайта и имеет встроенную поддержку Puppeteer. Для SDK Apify требуется Node.js 8 или новее.

  • Content Grabber

Content Grabber — это инструмент для визуального просмотра веб-страниц, который имеет интерфейс с функцией “укажи и кликни”, позволяющей легко выбирать элементы. Его интерфейс допускает нумерацию страниц, бесконечную прокрутку страниц и всплывающие окна.  Кроме того, он имеет обработку AJAX/Javascript, решение капчи, позволяет использовать регулярные выражения и ротацию IP (с Nohodo). Вы можете экспортировать данные в форматах CSV, XLSX, JSON и PDF. Для использования этого инструмента необходимы навыки программирования среднего уровня.

  • Mozenda

Mozenda — это корпоративная “облачная” платформа для парсинга. Она включает функцию «укажи и кликни» и имеет дружественный интерфейс. Mozenda состоит из двух частей — приложения для создания проекта извлечения данных и веб-консоли для запуска агентов, организации результатов и экспорта данных. Они также предоставляют доступ к API для получения данных и имеют встроенные интеграции с системами хранения, такими как FTP, Amazon S3, Dropbox и другими. Вы можете экспортировать данные в форматы CSV, XML, JSON или XLSX. Mozenda хорош для обработки больших объемов данных. Вам необходимо обладать навыками программирования выше базовых, чтобы использовать этот инструмент, поскольку он имеет довольно высокую “кривую обучения”.

  • Cheerio

Cheerio — это библиотека, которая анализирует документы HTML и XML и позволяет использовать синтаксис jQuery при работе с загруженными данными. Если вы пишете парсер на JavaScript, Cheerio — это отличное приложение, которое делает парсинг, управление и рендеринг эффективными. Cheerio не может: интерпретировать результат как веб-браузер, производить визуальный рендеринг, применять CSS-стили, загружать внешние ресурсы или выполнять JavaScript. Если вам требуется какая-либо из этих функций, вам следует рассмотреть такие проекты, как PhantomJS или JSDom

Краткий обзор того, как использовать эти инструменты парсинга:

  • Web Scraper

После загрузки расширения webscraper в Сhrome вы найдете его в инструментах разработчика и увидите новую панель инструментов с названием «Web Scraper». Активируйте вкладку и нажмите Create new sitemap (англ. “Создать новую карту сайта”), а затем Create sitemap (англ. “Создать карту сайта”). Карта сайта — это имя расширения Web Scraper для парсера. Это последовательность правил парсинга данных путем перехода от одного извлечения данных к другому. Мы установим в качестве начальной страницы  каталога мобильных телефонов на Amazon.com и нажмем Create sitemap. GIF иллюстрирует, как создать карту сайта:

Переход от корневой папки к страницам категории

В данный момент у нас в _root открыт инструмент Web Scraper с пустым списком дочерних селекторов.

Нажмите “Add new selector” (англ. “Добавить новый селектор”). Мы добавим селектор, который перенесет нас с главной страницы на страницу каждой категории. Давайте дадим ему категорию id с типом ссылки. Мы хотим получить несколько ссылок из корня, поэтому отметим флажок «Multiple» (англ. “Множественный выбор”) ниже. Кнопка «Select» (“Выбрать”) предоставляет нам инструмент для визуального выбора элементов на странице для создания селектора CSS. «Element Preview» (англ. “Предварительный просмотр элемента”) выделяет элементы на странице, а «Data Preview» (англ. “Предварительный просмотр данных”) — выборку данных, которые будут извлечены указанным селектором.

Нажмите «Select» (“Выбрать”) на одной из ссылок категории, и конкретный селектор CSS будет заполнен слева от инструмента выбора. Нажмите на одну из других (не выбранных) ссылок и CSS-селектор откорректирован. Продолжайте нажимать на оставшиеся ссылки, пока все они не будут выбраны. GIF ниже показывает весь процесс добавления селектора в карту сайта:

Граф селектора состоит из набора селекторов — контента для извлечения, элементов на странице и ссылки для отслеживания и продолжения просмотра. У каждого селектора есть корень (родительский селектор), определяющий контекст, в котором этот селектор должен быть применен. Вот визуальное представление окончательного парсера (граф селектора) для нашего парсера по категориям мобильных телефонов на Amazon:

Здесь корнем представляется начальный URL, главную страницу с категориями мобильных телефонов на Amazon. Оттуда парсер получает ссылку на каждую страницу категории и для каждой категории извлекает набор элементов продукта. Каждый элемент продукта извлекает одно имя, один отзыв, один рейтинг и одну цену. Поскольку существует несколько страниц, нам нужен следующий элемент для парсера, чтобы перейти на каждую доступную страницу.

Запуск парсера

Нажмите Sitemap, чтобы открыть выпадающее меню, и нажмите Scrape. Панель парсинга предоставляет несколько вариантов того, как медленно Web Scraper должен выполнять парсинг, чтобы избежать перегрузки веб-сервера запросами и дать веб-браузеру время для загрузки страниц. Нас устраивают настройки по умолчанию, поэтому нажимаем «Start scraping». Появится окно, в котором парсер просматривает данные. После сканирования данных вы можете загрузить их, нажав опцию «Экспортировать данные в формате CSV» или сохранить их в базе данных.

  • Data Scraper

Мы покажем вам, как извлечь данные из Amazon.com с помощью расширения Data Scraper Chrome. Сначала скачайте расширение по ссылке здесь

Откройте веб-сайт, с которого нужно извлечь данные. Мы рассмотрим информацию о кондиционерах в категории “Устройства” на Amazon.com. Щелкните правой кнопкой мыши на веб-страницу и выберите параметр “Get Similar (Data Miner)” (от англ. “Получить похожие (Извлечение данных”). Вы увидите список сохраненных шаблонов на левой стороне экрана. Вы можете выбрать любой из них или создать свой собственный шаблон и запустить его.

Чтобы создать свой собственный шаблон, нажмите “New Recipe” (от англ. “Новый рецепт”) или выберите один из общих шаблонов под опцией «Public» (англ. “Общедоступные”). Data Scraper удобен для пользователя, так как покажет вам, как создать собственный шаблон шаг за шагом. Вы получите вывод данных в виде таблицы: Затем нажмите на кнопку загрузки и извлеките данные в формате CSV / XSL.

  • Расширение Scraper для Chrome

После загрузки расширения откройте веб-сайт, и вам будет нужно выделить часть страницы, которая похожа на те данные, что вы хотите собрать. Щелкните правой кнопкой мыши, и вы увидите параметр под названием «Scrape similar» (англ. “Собрать похожие”). Консоль парсера откроется как новое окно, показывающее вам начальные результаты, где вы увидите извлеченное содержимое в виде таблицы. Раздел «Selector» позволяет вам выбрать, какие элементы страницы извлекаются. Вы можете указать запрос как селектор jQuery или в XPath.

Вы можете экспортировать таблицу, нажав “Export to Google Docs” (англ. “экспорт в Google Документы”), чтобы загрузить и сохранить содержимое в виде таблицы Google. Вы также можете настроить столбцы таблицы и указать имена для них, если хотите. После настройки необходимо нажать кнопку «Scrape» (“Сбор данных”), чтобы обновить результаты таблицы.

  • ParseHub

Все, что вам нужно сделать, это зайти на веб-сайт, который вы хотите пропарсить, и нажать”«Start Project” (англ. “Начать проект”). Затем нажмите кнопку «+», чтобы выбрать страницу или заголовок. Выбрав и назвав все необходимые поля, вы получите пример результата в CSV/XLSX или JSON. Нажмите “Get Data” (англ. “Получить данные”), и ParseHub соберет данные с веб-сайта и извлечет необходимые данные. Когда данные будут готовы, вы увидите варианты для загрузки ваших результатов в CSV и JSON.

  • FMiner

Мы покажем вам, как извлечь таблицу из Википедии с помощью FMiner. Мы собираемся использовать ссылку

https://en.wikipedia.org/wiki/List_of_National_Football_League_Olympians.

Сначала скачайте приложение по ссылке: http://www.fminer.com/download/

Открыв приложение, введите URL-адрес и нажмите кнопку “Record” (“Запись”), чтобы записать свои действия. Нам нужно извлечь таблицу олимпийских игроков. Чтобы создать таблицу, нажмите на знак «+» с надписью “table”. Затем выберите каждую строку, нажав на опцию “Target select” (англ. “Выбрать цель”), и вы увидите одну целую строку, выбранную из таблицы. Чтобы развернуть всю таблицу, нажмите на опцию “Multiple targets” (англ. “Множественные цели”) — она выберет всю таблицу. Как только вся таблица будет выделена, вы можете ввести новые поля, нажав на знак «+» (показано на рисунке ниже). После того, как вы создали таблицу, нажмите “Scrape” (“Парсить”). Вы получите уведомление о том, что парсинг завершена. Просто нажмите “Export”, чтобы сохранить данные в виде файла CSV или XLS.

  • Dexi.io

Для начала вам необходимо зарегистрироваться и войти в dexi.io. Затем вы попадете в приложение  https://app.dexi.io/#/. Когда вы попадете туда, вы можете начать, нажав “Create New Robot” (англ. “Создать нового робота”). Может потребоваться некоторое время, чтобы освоиться, но есть учебники о том, как создать свой первый парсер. Если вам нужна помощь, вы можете почитать их базу знаний. Dexi.io имеет простой пользовательский интерфейс. Все, что вам нужно сделать, это выбрать тип робота, который вам нужен, зайти на веб-сайт, с которого вы хотите извлечь данные, и начать строить свой парсер.

Итоги:

Несмотря на то, что эти инструменты для парсинга с легкостью извлекают данные из веб-страниц, они имеют свои ограничения. В конечном счете, программирование — это лучший способ парсинга данных из Интернета, поскольку оно обеспечивает большую гибкость и дает лучшие результаты. Если вы не разбираетесь в программировании, или ваши потребности сложны, или вам нужно собрать большие объемы данных, есть отличные сервисы парсинга, которые будут соответствовать вашим требованиям, чтобы облегчить вам работу. Вместо этого вы можете сэкономить время и получить чистые структурированные данные, обратившись к нам — мы являемся поставщиком полного спектра услуг, который не требует использования каких-либо инструментов, и все, что вы получаете, — это чистые данные без каких-либо хлопот.