Перевод интересной статьи американского автора про парсинга сайтов… как она зарабатывает?
Если и есть что-то, что я узнала о создании контента за последний год, так это то, что независимо от качества моего контента, без стратегического продвижения и маркетинга он не принесет пользы никому, будь то читатели или компания, в которой я работаю. Хотя я рассчитываю на продвижение в социальных сетях и на веб-сайте компании, все-таки если мой блог или whitepaper (англ. — мини-книга о решении определенной проблемы. Например, в ней может быть описана новая концепция или процесс выполнения технических задач) достигнет высококвалифицированного списка читателей, которые найдут контент действительно полезным, вы не сможете найти более благодарного писателя, чем я!
ИНТЕРНЕТ-МАГАЗИНЫ
ПРОИЗВОДИТЕЛИ
МЕДИЦИНСКИЕ КЛИНИКИ
РЕСТОРАНЫ И КАФЕ
Итак, как я собираюсь построить этот список для каждого контента, который я создаю? Интернет — это огромный рудник мыслей и интересов, выраженных различными людьми, и сбор данных из этого богатства информации может помочь мне определить правильную аудиторию — процесс, известный как парсинг. Конечно, я могла бы передать всю работу по парсингу на аутсорсинг в специальную сервисную компанию, но мой инстинкт программиста и исследователя новых инструментов, культивируемый в течение 3 лет работы в качестве “кибертехника” в ведущей компании по разработке ПО, взял верх надо мной. И я решила окунуться с головой во все тонкости парсинга, и количество вариантов, которые я обнаружила, слегка сбило меня с толку. Изучив сферу парсинга, я классифицировала все доступные варианты, которые мне удалось найти, и уникальные особенности популярных инструментов, найденных на рынке, которые обращаются к различным сегментам аудитории.
А как зарабатываем мы на парсинге сайтов?
Прежде чем переходить к инструментам парсинга, важно определиться, как вы будете собирать веб-данные. Это зависит от цели, от уровня любопытства и от ресурсов, которые у вас есть.
С моей точки зрения, парсинг в основном выполняется следующими способами:
Вариант для подкованных в коде людей, которые любят экспериментировать с макетами сайтов и решать проблемы блокировки, а также хорошо разбираются в разных языках программирования, таких как Python, R или Perl. Так же, как и решая свои повседневные задачи посредством программирования для любого научного проекта по data science, студент или исследователь может легко построить свое решение для парсинга с открытыми исходными кодами — такими, как Scrapy на основе Python или пакет rvest, RCrawler в R.
Инструменты парсинга подходят для разработчиков, в основном, там, где они могут создавать пользовательские парсеры с визуальной логикой программирования. Эти инструменты можно приравнять к среде IDE Eclipse для приложений Java EE. Положения для поворота IPs, агентов хоста и данных синтаксического анализа доступны в этом диапазоне для персонализации.
Для тех, кто не считает себя “технарем” и в коде не разбирается, есть куча визуальных инструментов типа “выбери и кликни”, которые помогут создать список продаж или заполнить информацию о продукте для вашего каталога с помощью сценариев zero manual (без ручной работы).
Для предприятий, которые настроены на масштабируемые проекты парсинга или для проектов в цейтноте, где у вас нет команды разработчиков, чтобы собрать собственное решение для парсинга, услуги специальных компаний становятся ценной помощью. Итак, если вы собираетесь воспользоваться инструментами, то вот список преимуществ и недостатков популярных инструментов парсинга, которые попадают во 2-ю и 3-ю категорию.
Настоящий титан в категории инструментов “Сделай сам”, import.io дает шанс каждому, кому необходимо извлечь какую-либо информацию из веб-данных с очень удобным, интуитивно понятным и интерактивным интерфейсом. Облачная платформа может структурировать данные, найденные за изображениями, экраном входа в систему и сотнями веб-страниц — полностью без программирования. Мониторинг изменений веб-сайта и возможность интеграции с рядом инструментов отчетности и приложений делают его отличным вариантом для предприятий с насущной необходимостью в парсинге.
За:
Против:
Если на данном этапе все выглядит классно, то осталось упомянуть всего лишь один минус, который может помешать вам попробовать этот инструмент, — это его цена. Несмотря на то что раньше у них была бесплатная пробная версия, теперь она больше не доступна (а базовый план начинается с $299/месяц). Так что вы извлекаете данные с сайтов, а программа извлекает деньги из вашего кармана.
Ранее известный как CloudScrape, а ныне Dexi.io — еще один потрясающий визуальный инструмент для автоматизации сбора данных, предназначенный для коммерческого использования, надежное и безпроблемное приложение для браузера. Dexi предоставляет возможность для создания роботов, которые могут работать как экстрактор или поисковый робот или выполнять задачи по очистке ETL-данных после извлечения в форме Dexi Pipes. Этот мощный инструмент парсинга решает проблемы разбиения на страницы, выполняет извлечение в цикле и делает скриншоты веб-страниц. Он выдает свои предложения по выбору данных на веб-странице для «умного» извлечения содержимого.
За:
Против:
Синий осьминог обещает принести вам все данные “на блюдечке с голубой каемочкой” безо всякого программирования вовсе, и надо сказать, он действительно это может! В течение всего 2 лет после запуска Octoparse прошел через 7 версий сервиса, доводя до ума свой рабочий процесс по обратной связи, полученной от пользователей. Он имеет интуитивно понятный интерфейс «выбери-и-кликни», который поддерживает бесконечную прокрутку, аутентификацию входа, многоформатный экспорт данных и неограниченное количество страниц на заход на своем бесплатном тарифе (да, вам не послышалось!).
За:
Против:
Десктоп-приложение, которое предлагает графический интерфейс для выбора и извлечения данных по вашему выбору из Javascript и AJAX страниц, также поддерживается Windows, Mac OS X и Linux. ParseHub также может просматривать вложенные комментарии, карты, изображения, календари и всплывающие окна. А еще у него есть расширение на основе браузера, чтобы мгновенно запустить ваш парсинг, и тьюториалы, которые там есть, очень хорошо помогают.За:
Против:
Outwit technologies предлагает простой, без выпендрежа графический интерфейс, который изначально поставлялся в качестве дополнения Firefox (устаревшая версия все еще доступна, но без обновлений функций), а теперь и в виде свободно загружаемого ПО, которое можно обновить до Light и Pro версий. Без каких-либо навыков программирования при помощи Outwit Hub можно извлекать и экспортировать ссылки, адреса электронной почты, новости RSS и таблицы данных в базы данных CSV, HTML, Excel или SQL. Их другие продукты, такие как Outwit Images и Documents, извлекают изображения и документы с веб-сайтов на ваши локальные диски.За:
Против:
ПО для визуального парсинга с макрокомпонентом дизайна для разработки блок-схемы парсинг-проекта путем визуального сопоставления со структурой сайта на том же экране. Инструмент на основе Python можно запускать как на Windows, так и на Mac OS с хорошей поддержкой Regex. FMiner имеет расширенные функции извлечения данных, такие как решение captcha, опции очистки данных после извлечения, а также позволяет вставлять код python для запуска задач на целевых веб-сайтах.
За:
Будучи мульти-платформенным программным обеспечением, доступным как для не программистов, так и для разработчиков, FMiner является мощным инструментом для сбора данных с сайтов со сложными макетами.
Против:
Далее мы рассмотрим инструменты парсинга для разработчиков.
Этот продукт размещен в облаке и такие популярные проблемы парсинга как ограничение скорости и вращение между несколькими IP-адресами тут не оставили без внимания (все в бесплатной версии!), так что 80Legs — это чудо парсинга! Загрузите список URL-адресов, установите ограничения обхода, выберите одно из встроенных приложений из обширного каталога от 80Legs, и полный вперед. Примером приложения от 80Legs будет “Ключевое слово”, которое подсчитывает количество раз, когда поисковый запрос появляется во всех перечисленных URL-адресах по отдельности. Пользователи могут создавать свои собственные приложения и код, которые могут быть помещены в 80Legs, что делает инструмент более настраиваемым и мощным.О! И недавно они запустили новую версию своего портала. Загляните.
За:
Против:
Хотя рекламируется как визуальный инструмент парсинга для не программистов, полный потенциал этого инструмента может быть использован как раз людьми с отличными навыками программирования, которые позволят им провести эффективный сбор данных. Шаблоны сценариев, предназначенные для захвата, нужны для настройки ваших парсеров, и вы можете добавить свои собственные строки кода C# или Visual Basic. Agent Explorer и XPath Editor предоставляют опции для группировки нескольких команд и редактирования XPath по мере необходимости.
За:
Против:
Mozenda, предназначенная в основном для коммерческих предприятий и крупных организаций, позволяет создавать поисковые роботы, которые могут быть размещены на собственных серверах Mozenda или работать в вашей системе. Согласна, что у нее есть хороший пользовательский интерфейс, чтобы просто следовать алгоритму “выбери и кликни”, но для разработки поискового робота вам все равно нужно потратить время на обучающие материалы и часто обращаться за помощью их техподдержки. Поэтому классифицировать ее как инструмент DIY для не-технарей будет несправедливо. Этот надежный инструмент понимает списки и сложные макеты веб-сайтов наряду с совместимостью XPath.
За:
Против:
Исключительно приложение для Windows по неумеренно высокой цене в $300/месяц, и это за 2 одновременных запуска и 10 роботов.
Connotate — это платформа для извлечения данных, созданная исключительно для нужд бизнеса. Хотя там есть интерфейс для сбора данных методом “выбери-и-кликни”, все же пользовательский интерфейс и цены явно не предназначены для людей с запросами “на разок”. Работа со схемами и поддержание поисковых роботов требует обученных пользователей, и если ваша компания ищет способы сбора информации с тысяч URL-адресов, то Connotate — это хороший вариант.
За:
Способность Connotate работать с огромным количеством динамических сайтов наряду с его возможностями извлечения документов делают эту платформу приемлемым вариантом для крупных предприятий, которые собирают веб-данных на регулярной основе.
Против:
Обработка ошибок во время крупномасштабных проектов выполняется не совсем гладко, что может вызвать небольшую загвоздку в вашем текущем проекте сбора данных.
Apify, как указано в названии, является веб-платформой для программистов, которые хотят превратить веб-сайты в API. Cron-подобное планирование заданий и расширенные функции поискового робота, которые поддерживают обработку больших веб-сайтов, поддерживаются в Apify. У них есть варианты на разный вкус, как для самостоятельных разработчиков, так и для предприятий, чтобы развивать и поддерживать свои API.
За:
Против:
Как бы легко это ни было для разработчиков — написать всего лишь несколько строк Javascript, обработка ротации IP и прокси будет их основной задачей, которая осталась без внимания непосредственно в Apify.
Это другой инструмент сбора данных, также использующий API-доступ к данным, который включает методы ML и NLP для идентификации и сортировки веб-контента. Разработчики могут создавать собственные API для анализа контента в блогах, обзорах и на страницах событий. Diffbot расширяет библиотеку этих API, что позволяет легко выбрать и интегрировать API по вашему выбору.
За:
Их алгоритм машинного обучения, который определяет и классифицирует тип контента, обеспечивая точное извлечение данных.
Против:
Понимание документов на уровне человека еще не внедрено, и Diffbot также находится в ряду дорогостоящих инструментов парсинга.
“Превратите содержимое веб-сайта в набор данных”, так звучит утверждение на главной странице Diggernaut, дополненное фразой «не требуется навыков программирования». Но облачный инструмент извлечения, который поставляется как расширение Chrome и как автономное настольное приложение, имеет функцию мета-языка, которая позволяет программистам автоматизировать сложные задачи парсинга с помощью собственного кода. Понимание языков разметки HTML,CSS/JQuery и YAML необходимо для настройки их краулеров.
За:
Против:
Если использовать метод «выбери и кликни», то Diggernaut сначала трудновато понять. Кроме того, при довольно хорошем качестве функций извлечения изображений печально не обнаружить модулей извлечения документов.
Инструменты сбора веб-данных представлены в огромном количестве, и они прекрасно работают как для одноразовых мини-поисков, так и для небольших любительских проектов по парсингу, и даже регулярных проектов по сбору данных, у которых есть собственная команда профессионалов, занятых их обслуживанием. Хотя всегда придется приложить некоторые усилия для очистки и обогащения выходных данных.
Об авторе: Ида Джесси Сагина — специалист по контент-маркетингу, в настоящее время фокусируется на контенте для Scrapeworks — ассоциированного подразделения Mobius Knowledge Services. Она следит за новыми технологическими разработками и любит писать обо всем, что записывает данные.
Краткое резюме: как превратить сеть сайтов в стабильный источник дохода Создание сети информационных сайтов —…
Знаете ли вы, что невидимые технические ошибки могут «съедать» до 90% вашего потенциального трафика из…
Введение: почему мониторинг цен — необходимость, а защита — не преграда Представьте, что вы пытаетесь…
Значительная часть трафика на любом коммерческом сайте — это не люди. Это боты, которые могут…
Систематический мониторинг цен конкурентов — это не просто способ избежать ценовых войн, а доказанный инструмент…
Краткое содержание В мире, где 93% потребителей читают отзывы перед покупкой 1, а рейтинг компании…