Перевод интересной статьи американского автора про парсинга сайтов… как она зарабатывает?
Если и есть что-то, что я узнала о создании контента за последний год, так это то, что независимо от качества моего контента, без стратегического продвижения и маркетинга он не принесет пользы никому, будь то читатели или компания, в которой я работаю. Хотя я рассчитываю на продвижение в социальных сетях и на веб-сайте компании, все-таки если мой блог или whitepaper (англ. — мини-книга о решении определенной проблемы. Например, в ней может быть описана новая концепция или процесс выполнения технических задач) достигнет высококвалифицированного списка читателей, которые найдут контент действительно полезным, вы не сможете найти более благодарного писателя, чем я!
ИНТЕРНЕТ-МАГАЗИНЫ
ПРОИЗВОДИТЕЛИ
МЕДИЦИНСКИЕ КЛИНИКИ
РЕСТОРАНЫ И КАФЕ
Итак, как я собираюсь построить этот список для каждого контента, который я создаю? Интернет — это огромный рудник мыслей и интересов, выраженных различными людьми, и сбор данных из этого богатства информации может помочь мне определить правильную аудиторию — процесс, известный как парсинг. Конечно, я могла бы передать всю работу по парсингу на аутсорсинг в специальную сервисную компанию, но мой инстинкт программиста и исследователя новых инструментов, культивируемый в течение 3 лет работы в качестве “кибертехника” в ведущей компании по разработке ПО, взял верх надо мной. И я решила окунуться с головой во все тонкости парсинга, и количество вариантов, которые я обнаружила, слегка сбило меня с толку. Изучив сферу парсинга, я классифицировала все доступные варианты, которые мне удалось найти, и уникальные особенности популярных инструментов, найденных на рынке, которые обращаются к различным сегментам аудитории.
А как зарабатываем мы на парсинге сайтов?
Прежде чем переходить к инструментам парсинга, важно определиться, как вы будете собирать веб-данные. Это зависит от цели, от уровня любопытства и от ресурсов, которые у вас есть.
Итак, сначала выберите правильный подход к парсингу
С моей точки зрения, парсинг в основном выполняется следующими способами:
- Создание собственного поискового робота с нуля
Вариант для подкованных в коде людей, которые любят экспериментировать с макетами сайтов и решать проблемы блокировки, а также хорошо разбираются в разных языках программирования, таких как Python, R или Perl. Так же, как и решая свои повседневные задачи посредством программирования для любого научного проекта по data science, студент или исследователь может легко построить свое решение для парсинга с открытыми исходными кодами — такими, как Scrapy на основе Python или пакет rvest, RCrawler в R.
- Инструменты парсинга, предназначенные для разработчиков
Инструменты парсинга подходят для разработчиков, в основном, там, где они могут создавать пользовательские парсеры с визуальной логикой программирования. Эти инструменты можно приравнять к среде IDE Eclipse для приложений Java EE. Положения для поворота IPs, агентов хоста и данных синтаксического анализа доступны в этом диапазоне для персонализации.
- “Сделай сам” — инструменты парсинга для не программистов
Для тех, кто не считает себя “технарем” и в коде не разбирается, есть куча визуальных инструментов типа “выбери и кликни”, которые помогут создать список продаж или заполнить информацию о продукте для вашего каталога с помощью сценариев zero manual (без ручной работы).
- Аутсорсинг всего проекта парсинга
Для предприятий, которые настроены на масштабируемые проекты парсинга или для проектов в цейтноте, где у вас нет команды разработчиков, чтобы собрать собственное решение для парсинга, услуги специальных компаний становятся ценной помощью. Итак, если вы собираетесь воспользоваться инструментами, то вот список преимуществ и недостатков популярных инструментов парсинга, которые попадают во 2-ю и 3-ю категорию.
“Сделай сам” — инструменты парсинга для не программистов, настраиваемые по принципу “выбери и кликни”
Import.io
Настоящий титан в категории инструментов “Сделай сам”, import.io дает шанс каждому, кому необходимо извлечь какую-либо информацию из веб-данных с очень удобным, интуитивно понятным и интерактивным интерфейсом. Облачная платформа может структурировать данные, найденные за изображениями, экраном входа в систему и сотнями веб-страниц — полностью без программирования. Мониторинг изменений веб-сайта и возможность интеграции с рядом инструментов отчетности и приложений делают его отличным вариантом для предприятий с насущной необходимостью в парсинге.
За:
- Простой и легкий пользовательский интерфейс, который хорошо работает для не программистов, желающих построить свой список потенциальных клиентов или отслеживать изменения цен.
- Это вполне адекватный вариант парсинга на нормальной скорости при сборе данных с разных веб-сайтов одновременно.
Против:
Если на данном этапе все выглядит классно, то осталось упомянуть всего лишь один минус, который может помешать вам попробовать этот инструмент, — это его цена. Несмотря на то что раньше у них была бесплатная пробная версия, теперь она больше не доступна (а базовый план начинается с $299/месяц). Так что вы извлекаете данные с сайтов, а программа извлекает деньги из вашего кармана.
Dexi.io
Ранее известный как CloudScrape, а ныне Dexi.io — еще один потрясающий визуальный инструмент для автоматизации сбора данных, предназначенный для коммерческого использования, надежное и безпроблемное приложение для браузера. Dexi предоставляет возможность для создания роботов, которые могут работать как экстрактор или поисковый робот или выполнять задачи по очистке ETL-данных после извлечения в форме Dexi Pipes. Этот мощный инструмент парсинга решает проблемы разбиения на страницы, выполняет извлечение в цикле и делает скриншоты веб-страниц. Он выдает свои предложения по выбору данных на веб-странице для «умного» извлечения содержимого.
За:
- Здесь нет жестких процедур настройки, которым вы должны строго следовать. Зарегистрируйтесь, и приложение браузера откроется для вас, чтобы создать своего робота. Их потрясающая команда поддержки поможет вам с созданием бота в случае, если вы попали в засаду.
- Для коммерческого использования есть стандартный тарифный план по цене $119/месяц (для небольших проектов), который выглядит вполне приемлемым, а также профи-тариф, который подойдет для более крупных бизнес-проектов.
Против:
- Концепция дополнений в Dexi.io, хотя и выглядит поначалу симпатичной, потом все-таки оказывается не такой классной. Так как дополнений становится все больше и больше, и цены на них тоже растут.
- Некоторые пользователи ворчат и высказывают недовольство по поводу документации продукта, которую я надеюсь, ребята из Dexi скоро исправят.
Octoparse
Синий осьминог обещает принести вам все данные “на блюдечке с голубой каемочкой” безо всякого программирования вовсе, и надо сказать, он действительно это может! В течение всего 2 лет после запуска Octoparse прошел через 7 версий сервиса, доводя до ума свой рабочий процесс по обратной связи, полученной от пользователей. Он имеет интуитивно понятный интерфейс «выбери-и-кликни», который поддерживает бесконечную прокрутку, аутентификацию входа, многоформатный экспорт данных и неограниченное количество страниц на заход на своем бесплатном тарифе (да, вам не послышалось!).
За:
- Предусмотренные функции парсинга и работа с неограниченным списком веб-страниц за один заход делают его идеальным выбором для сценариев мониторинга цен.
- Функций, предусмотренных в их бесплатном плане более чем достаточно, если вы ищете эффективное одноразовое, готовое решение с хорошей документацией руководства пользователя. Кроме того, точное извлечение данных может быть достигнуто с помощью встроенных инструментов XPath и Regex.
Против:
- Octoparse еще только предстоит добавить функции извлечения pdf-данных и извлечения данных по изображениям (пока извлекается только URL-адрес изображения), поэтому называть его полноценным инструментом парсинга было бы несколько преждевременным.
- Поддержка клиентов “не огонь”, на быстрые ответы можно не рассчитывать.
ParseHub
Десктоп-приложение, которое предлагает графический интерфейс для выбора и извлечения данных по вашему выбору из Javascript и AJAX страниц, также поддерживается Windows, Mac OS X и Linux. ParseHub также может просматривать вложенные комментарии, карты, изображения, календари и всплывающие окна. А еще у него есть расширение на основе браузера, чтобы мгновенно запустить ваш парсинг, и тьюториалы, которые там есть, очень хорошо помогают.За:
- ParseHub имеет богатый пользовательский интерфейс и извлекает данные из многих сложных областей веб-сайта, в отличие от других программ.
- Разработчики могут попробовать RestfulAPI от ParseHub, который предоставляет удобный доступ к данным по завершении парсинга.
Против:
- Предполагаемый бесплатный план от ParseHub выглядит несколько жалким, ограничивая количество пройденных страниц до 200 и количество проектов — всего до 5. Кроме того, их платные версии начинаются со вполне ощутимых $149 в месяц, и все это выглядят как провальный вариант, особенно для одноразовых проектов.
- Скорость, с которой выполняется парсинг, должна быть значительно улучшена, потому что в текущем формате парсинг большого объема данных выполняется слишком медленно.
OutwitHub
Outwit technologies предлагает простой, без выпендрежа графический интерфейс, который изначально поставлялся в качестве дополнения Firefox (устаревшая версия все еще доступна, но без обновлений функций), а теперь и в виде свободно загружаемого ПО, которое можно обновить до Light и Pro версий. Без каких-либо навыков программирования при помощи Outwit Hub можно извлекать и экспортировать ссылки, адреса электронной почты, новости RSS и таблицы данных в базы данных CSV, HTML, Excel или SQL. Их другие продукты, такие как Outwit Images и Documents, извлекают изображения и документы с веб-сайтов на ваши локальные диски.За:
- Это вполне гибкий и мощный вариант для людей, которым нужны контакты источников и он доступен по цене, начинающейся с $69 для основной одноразовой покупки автономного приложения.
- Функция «Fast Scrape» (быстрый парсинг) — это приятное дополнение для быстрого удаления данных из списка URL-адресов, которые вы передали Outwit.
Против:
- Пригодность Outwit для повторяющихся широкомасштабных проектов по парсингу сомнительна, и их документация с обучающими материалами определенно нуждаются в развитии.
- Продукту не хватает удобного интерфейса «выбери-и-кликни», поэтому пользователям в первый раз может потребоваться изучить обучающие видео на Youtube перед тем, как реализовывать свой проект по парсингу.
FMiner
ПО для визуального парсинга с макрокомпонентом дизайна для разработки блок-схемы парсинг-проекта путем визуального сопоставления со структурой сайта на том же экране. Инструмент на основе Python можно запускать как на Windows, так и на Mac OS с хорошей поддержкой Regex. FMiner имеет расширенные функции извлечения данных, такие как решение captcha, опции очистки данных после извлечения, а также позволяет вставлять код python для запуска задач на целевых веб-сайтах.
За:
Будучи мульти-платформенным программным обеспечением, доступным как для не программистов, так и для разработчиков, FMiner является мощным инструментом для сбора данных с сайтов со сложными макетами.
Против:
- Визуальный интерфейс не очень привлекателен, и необходимо приложить усилия для создания надлежащего рабочего процесса очистки (вспоминая о блок-схемах и соединителях). Вы должны знать свой путь вокруг определения элементов данных с помощью выражений XPath.
- После 15-дневной пробной версии вы вынуждены приобрести по крайней мере базовую версию программного обеспечения по цене $168 без планирования, емейл-отчетов или поддержки JS. Кстати, насколько активно они обновляют свой продукт? Не уверена, ибо не слышно новостей о каких-либо свежих улучшениях в FMiner.
Далее мы рассмотрим инструменты парсинга для разработчиков.
Инструменты парсинга для разработчиков
80Legs
Этот продукт размещен в облаке и такие популярные проблемы парсинга как ограничение скорости и вращение между несколькими IP-адресами тут не оставили без внимания (все в бесплатной версии!), так что 80Legs — это чудо парсинга! Загрузите список URL-адресов, установите ограничения обхода, выберите одно из встроенных приложений из обширного каталога от 80Legs, и полный вперед. Примером приложения от 80Legs будет “Ключевое слово”, которое подсчитывает количество раз, когда поисковый запрос появляется во всех перечисленных URL-адресах по отдельности. Пользователи могут создавать свои собственные приложения и код, которые могут быть помещены в 80Legs, что делает инструмент более настраиваемым и мощным.О! И недавно они запустили новую версию своего портала. Загляните.
За:
- Неограниченное количество запусков в месяц; один запуск за раз обрабатывает до 10000 URL-адресов прямо в бесплатной версии. Так что можете себе представить, платные тарифы 80Legs еще более привлекательны!
- Приложения, перечисленные в 80Legs, дают пользователям возможность анализировать извлеченный веб-контент и позволяют пользоваться этим инструментом даже специалистам с ограниченными познаниями в коде.
Против:
- Хотя поддержка огромных краулеров веб-страниц и заявлена, нет никаких базовых вариантов обработки данных, которые были бы необходимы при таких крупномасштабных проектах.
- Расширенные функции краулера, которые могут заинтересовать кодеров, в платформе 80Legs не обнаружены, и их команда поддержки также реагирует довольно медленно.
Content Grabber
Хотя рекламируется как визуальный инструмент парсинга для не программистов, полный потенциал этого инструмента может быть использован как раз людьми с отличными навыками программирования, которые позволят им провести эффективный сбор данных. Шаблоны сценариев, предназначенные для захвата, нужны для настройки ваших парсеров, и вы можете добавить свои собственные строки кода C# или Visual Basic. Agent Explorer и XPath Editor предоставляют опции для группировки нескольких команд и редактирования XPath по мере необходимости.
За:
- Разработчики могут отлаживать скрипты очистки, регистрировать и обрабатывать ошибки с помощью встроенной поддержки команд.
- Крупные компании, ищущие инфраструктуру для сбора данных, могут попросту начать молиться на Content Grabber за его надежный и очень гибкий интерфейс парсинга, что стало возможным благодаря многим расширенным функциям, найденным в инструменте.
Против:
- Программное обеспечение доступно только для Windows и Linux, пользователям Mac OS рекомендуется запускать программное обеспечение в виртуальной среде.
- Цена установлена в $995 за одноразовую покупку программного обеспечения, которое ставит его вне досягаемости для скромных и небольших проектов по сбору данных.
Mozenda
Mozenda, предназначенная в основном для коммерческих предприятий и крупных организаций, позволяет создавать поисковые роботы, которые могут быть размещены на собственных серверах Mozenda или работать в вашей системе. Согласна, что у нее есть хороший пользовательский интерфейс, чтобы просто следовать алгоритму “выбери и кликни”, но для разработки поискового робота вам все равно нужно потратить время на обучающие материалы и часто обращаться за помощью их техподдержки. Поэтому классифицировать ее как инструмент DIY для не-технарей будет несправедливо. Этот надежный инструмент понимает списки и сложные макеты веб-сайтов наряду с совместимостью XPath.
За:
- Роботы Mozenda собирают данные в довольно быстром темпе для запланированного и параллельного парсинга и поддерживают различные макеты сайтов.
- Вы можете извлечь данные в файлах Excel, Word, PDF и объединить их с данными, полученными из интернета с помощью Mozenda.
Против:
Исключительно приложение для Windows по неумеренно высокой цене в $300/месяц, и это за 2 одновременных запуска и 10 роботов.
Connotate
Connotate — это платформа для извлечения данных, созданная исключительно для нужд бизнеса. Хотя там есть интерфейс для сбора данных методом “выбери-и-кликни”, все же пользовательский интерфейс и цены явно не предназначены для людей с запросами “на разок”. Работа со схемами и поддержание поисковых роботов требует обученных пользователей, и если ваша компания ищет способы сбора информации с тысяч URL-адресов, то Connotate — это хороший вариант.
За:
Способность Connotate работать с огромным количеством динамических сайтов наряду с его возможностями извлечения документов делают эту платформу приемлемым вариантом для крупных предприятий, которые собирают веб-данных на регулярной основе.
Против:
Обработка ошибок во время крупномасштабных проектов выполняется не совсем гладко, что может вызвать небольшую загвоздку в вашем текущем проекте сбора данных.
Apify
Apify, как указано в названии, является веб-платформой для программистов, которые хотят превратить веб-сайты в API. Cron-подобное планирование заданий и расширенные функции поискового робота, которые поддерживают обработку больших веб-сайтов, поддерживаются в Apify. У них есть варианты на разный вкус, как для самостоятельных разработчиков, так и для предприятий, чтобы развивать и поддерживать свои API.
За:
- Apify может похвастаться живым форумом и поддержкой сообщества, которые позволяют разработчикам повторно использовать исходные коды, размещенные на GitHub, а также он имеет открытую библиотеку конкретных инструментов очистки, таких как SEO audit tool, email extractor и т. Д.
- API интегрируется с огромным количеством приложений и может обрабатывать сложные вопросы разбиения на страницы и макета сайта.
Против:
Как бы легко это ни было для разработчиков — написать всего лишь несколько строк Javascript, обработка ротации IP и прокси будет их основной задачей, которая осталась без внимания непосредственно в Apify.
Diffbot
Это другой инструмент сбора данных, также использующий API-доступ к данным, который включает методы ML и NLP для идентификации и сортировки веб-контента. Разработчики могут создавать собственные API для анализа контента в блогах, обзорах и на страницах событий. Diffbot расширяет библиотеку этих API, что позволяет легко выбрать и интегрировать API по вашему выбору.
За:
Их алгоритм машинного обучения, который определяет и классифицирует тип контента, обеспечивая точное извлечение данных.
Против:
Понимание документов на уровне человека еще не внедрено, и Diffbot также находится в ряду дорогостоящих инструментов парсинга.
Diggernaut
“Превратите содержимое веб-сайта в набор данных”, так звучит утверждение на главной странице Diggernaut, дополненное фразой «не требуется навыков программирования». Но облачный инструмент извлечения, который поставляется как расширение Chrome и как автономное настольное приложение, имеет функцию мета-языка, которая позволяет программистам автоматизировать сложные задачи парсинга с помощью собственного кода. Понимание языков разметки HTML,CSS/JQuery и YAML необходимо для настройки их краулеров.
За:
- Diggernaut поставляется с довольно классным модулем OCR, который может помочь вам вытащить данные из изображений.
- Существует также возможность для разработчиков создавать Restful API для легкого доступа к веб-данным, и все по очень доступным ценам — даже их бесплатная версия поддерживает 3 краулера и 5K запросов страниц.
Против:
Если использовать метод «выбери и кликни», то Diggernaut сначала трудновато понять. Кроме того, при довольно хорошем качестве функций извлечения изображений печально не обнаружить модулей извлечения документов.
Подводя итоги
Инструменты сбора веб-данных представлены в огромном количестве, и они прекрасно работают как для одноразовых мини-поисков, так и для небольших любительских проектов по парсингу, и даже регулярных проектов по сбору данных, у которых есть собственная команда профессионалов, занятых их обслуживанием. Хотя всегда придется приложить некоторые усилия для очистки и обогащения выходных данных.
Об авторе: Ида Джесси Сагина — специалист по контент-маркетингу, в настоящее время фокусируется на контенте для Scrapeworks — ассоциированного подразделения Mobius Knowledge Services. Она следит за новыми технологическими разработками и любит писать обо всем, что записывает данные.
СФЕРА РАЗВЛЕЧЕНИЙ
База всех компаний в категории: КАРАОКЕ
ПРОИЗВОДСТВЕННЫЕ УСЛУГИ
База всех компаний в категории: ПРОФЕССИОНАЛЬНАЯ ХИМИЯ
ОПТОВАЯ ТОРГОВЛЯ
База всех компаний в категории: ОПТОВЫЙ РЫНОК
ИЗБРАННЫЕ БАЗЫ КОМПАНИЙ
Табрис
ПРОИЗВОДСТВЕННЫЕ УСЛУГИ
База всех компаний в категории: ПРОИЗВОДИТЕЛЬ ЗАПЧАСТЕЙ
ЮВЕЛИРНЫЕ ПРОИЗВОДИТЕЛИ
БАЗА ЮВЕЛИРНЫХ ПРОИЗВОДИТЕЛЕЙ И МАГАЗИНОВ
ФИНАНСОВЫЕ УСЛУГИ
База всех компаний в категории: БИРЖА
МЕДИЦИНСКИЕ УСЛУГИ
База всех компаний в категории: РЕФЛЕКСОТЕРАПЕВТ