Обходите CAPTCHA и обеспечьте беспрепятственный процесс сбора данных с помощью таких инструментов, как Scraping Browser, Puppeteer Extra Stealth NPM Plugin, Puppeteer Extra ReCaptcha NPM Plugin, GoodByeCaptcha и 2Captcha. Читайте длалее наш перевод1.
Допустим, вы опытный разработчик, работающий над проектом по автоматизированному сбору данных с помощью библиотеки веб-парсинга на базе Python. Вы настроили свой парсер на эффективную навигацию по целевым веб-сайтам и систематический сбор необходимой информации. Все идет гладко, вы предвкушаете, какие выводы можно будет сделать из собранных данных, когда весь процесс резко и с визгом останавливается благодаря тому, что сайт выкидывает… капчу.
Как защищает CAPTCHA

CAPTCHA — это меры безопасности, применяемые веб-сайтами для того, чтобы отличать легитимных пользователей от ботов/веб-парсеров. Все мы знаем, как они обычно выглядят — мини-задачи с буквами, цифрами или изображениями, которые нужно решить, чтобы получить дальнейший доступ к сайту. Так как эти задачи обычно разработаны для визуального взаимодействия, когда ваш веб-скрейпер сталкивается с CAPTCHA, он застревает, останавливая весь процесс автоматического парсинга.
Ряд факторов может привести к тому, что веб-сайт обнаружит парсер и выбросит CAPTCHA.
- Для обнаружения скрейперов/ботов веб-сайты могут использовать «отпечатки пальцев» браузера/устройства. Анализируя такие атрибуты, как разрешение экрана, шрифты и плагины, а также информацию о конфигурации браузера пользователя и программно-аппаратной среды, создается уникальный отпечаток. Если отпечаток пальца парсера отмечен как нечеловеческий, запускается CAPTCHA для подтверждения личности пользователя.
- Парсеры часто имеют идентифицируемые строки User-Agent, что делает их легко заметными. Необычные или подозрительные User-Agent могут вызвать CAPTCHA для подтверждения легитимности.
- Cookies отслеживают пользователей и ботов. Неправильное управление куками или отсутствие данных о сеансе может привести к появлению CAPTCHA для подтверждения подлинности пользователя.
- Современные CAPTCHA, такие как ReCaptcha, анализируют поведение мыши и кликов. Предсказуемые движения ботов приводят к возникновению проблем с CAPTCHA.
CAPTCHA представляют собой серьезную проблему для крупномасштабного автоматизированного веб-парсинга. Ручная интеграция логики обхода CAPTCHA может быстро запутаться. Вам придется не только внедрять сложные алгоритмы в код, но и постоянно вносить коррективы, чтобы учитывать меняющиеся механизмы CAPTCHA на сайте. Обычные решения включают в себя прокси-серверы, но они требуют дополнительной инфраструктуры и часто не являются на 100% надежными.
Эффективный обход CAPTCHA требует эмуляции человекоподобного поведения для эффективного обхода CAPTCHA. В этой статье мы рассмотрим пять инструментов, которые способны сделать именно это и даже больше. Независимо от того, являетесь ли вы опытным разработчиком веб-парсинга или новичком, эти инструменты помогут вам эффективно обходить CAPTCHA и обеспечить плавный и бесперебойный процесс сбора данных в масштабе.
Браузер для сбора данных Bright Data
В отличие от других пунктов этого списка, Scraping Browser — это комплексное решение «все в одном», сочетающее в себе удобство настоящего, автоматизированного браузера с мощной инфраструктурой разблокировки Bright Data и услугами управления прокси. Он также полностью совместим с API Puppeteer/Playwright/Selenium.
С помощью Scraping Browser вам не придется работать с многочисленными сторонними библиотеками, которые решают такие задачи, как управление прокси и отпечатками пальцев, ротация IP-адресов, автоматические повторные попытки, ведение логов или решение CAPTCHA. Обо всем этом и многом другом Scraping Browser позаботится на серверной инфраструктуре Bright Data.
Если вы задаетесь вопросом, как это сделать, то это потому, что браузер Scraping Browser встроен в мощную инфраструктуру разблокировщиков Bright Data, что означает, что он поставляется с технологией обхода CAPTCHA прямо из коробки, и никаких дополнительных мер с вашей стороны не требуется.
Именно эта инфраструктура разблокировки позволяет вам проходить CAPTCHA, не напрягаясь. Технология веб-разблокировщика:
- Позволяет практически идеально эмулировать информацию об отпечатках пальцев браузера, включая плагины, шрифты, версию браузера, куки, отпечаток элемента HTML5 canvas или WebGL, отпечаток Web Audio API, операционную систему, разрешение экрана и многое другое. Наличие этого аспекта позволяет решить проблему в корне, а не просто как производный «симптом», например, «reCaptcha».
- Автоматически настраивает соответствующую информацию в заголовках (например, строки User-Agent) и управляет cookies в соответствии с требованиями целевого веб-сайта, чтобы избежать обнаружения и блокировки как «краулера».
- Имитирует все устройства, подключенные к данной системе, включая соответствующие драйверы, движения мыши, разрешение экрана и другие свойства устройства, достигая полной имитации перечисления устройств.
- Эффективно управляет HTTP-заголовками как в процессе декодирования (при получении запроса), так и в процессе кодирования (при отправке ответа).
- Легко обновляет HTTP-протоколы и меняет отпечатки пальцев TLS/SSL таким образом, чтобы версии протоколов, выполняющих запросы, совпадали с версиями заголовков вашего браузера, и ваши запросы выглядели подлинными.
- Может решать reCAPTCHA, hCaptcha, px_captcha, SimpleCaptcha и GeeTest CAPTCHA, и постоянно обновляется, чтобы справляться с веб-сайтами, которые открывают новые способы обнаружения ваших попыток парсинга.
- Является управляемой услугой, что означает, что вам не нужно беспокоиться об обновлении кода, чтобы идти в ногу с постоянно меняющимися механизмами генерации CAPTCHA на сайте. Bright Data позаботится обо всем этом за вас, выполняя обновления и обслуживание со своей стороны.
Scraping Browser использует премиальную прокси-сеть Bright Data, которая предлагает четыре различных типа прокси-сервисов — для центров обработки данных, для жилых домов, для интернет-провайдеров и для мобильных устройств. Вы можете выбрать тот, который подходит для вашего случая, или воспользоваться функцией «водопад», при которой запросы направляются через различные прокси-сети с помощью настраиваемых и автоматических правил.
Scraping Browser очень просто настроить и интегрировать в существующие скрипты Playwright/Puppeteer/Selenium:
- Прежде чем писать какой-либо код для скрейинга, вы используете Puppeteer/Playwright/Selenium для подключения к Браузеру скрейинга Bright Data, используя свои учетные данные, через Websockets.
- После этого все, о чем вам нужно беспокоиться, — это разработка вашего парсера с использованием стандартных библиотек Puppeteer/Playwright/Selenium, и ничего больше.
Scraping Browser поставляется с бесплатной пробной версией, и вы можете найти документацию для получения дальнейших инструкций, чтобы начать работу.
Плагин Puppeteer Extra Stealth NPM Plugin
Веб-сайты становятся все более искусными в обнаружении безголовых браузеров, таких как Puppeteer, с помощью таких маркеров, как дополнение к пользовательскому агенту HeadlessChrome. Плагин Puppeteer Extra Stealth NPM Plugin является важным компонентом экосистемы Puppeteer Extra, расширенной библиотеки, построенной на базе популярного безголового браузера Puppeteer.
Разработанный для преодоления ограничений, налагаемых CAPTCHA и мерами по борьбе с ботами, этот плагин предлагает разработчикам эффективное средство для обхода механизмов безопасности, оставаясь незамеченными.
Плагин Puppeteer Stealth NPM Plugin **учитывает отпечатки пальцев браузера, маскируя стандартные свойства headless **— такие как headless: true, navigator.webdriver: true, и заголовки запросов — в конечном итоге обеспечивая анонимность и незамеченность при просмотре страниц.
В основе эффективности NPM-плагина Puppeteer Stealth лежит его модульная конструкция.
Используя систему зависимостей Puppeteer-extra, плагин внедряет уклонения только при активации, обеспечивая оптимизацию и эффективность работы. Такой подход не только повышает модульность, но и способствует быстрому тестированию и итерациям, предоставляя разработчикам свободу действий для точной настройки своих усилий по автоматизации.
Основная задача Puppeteer Stealth NPM Plugin — бесшовная интеграция с Puppeteer, обеспечивающая интеллектуальный и динамичный подход к обходу механизмов обнаружения.
Плагин Puppeteer Stealth NPM Plugin предлагает два подхода к интеграции:
- Он включает в себя удобную обертку, которая автоматически применяет несколько техник обхода, придерживаясь настроек по умолчанию.
- Для тех, кто ищет более детальный контроль, плагин можно использовать для выборочного включения определенных плагинов уклонения, используя автономную природу плагинов Puppeteer-extra.
NPM-плагин Puppeteer Extra ReCaptcha
Как и упомянутый ранее плагин Stealth, плагин reCaptcha является еще одним компонентом экосистемы Puppeteer Extra, который легко справляется с hCAPTCHA и reCAPTCHA, устраняя ручное вмешательство, необходимое для решения этих мер безопасности. Он предоставляет метод page.solveRecaptchas(), который делает все необходимое для обхода reCAPTCHA и hcaptchas при веб-скрейинге.
Для работы этого плагина требуется поставщик решений. Он поставляется со встроенным провайдером 2Captcha, и все, что вам нужно сделать, это предоставить плагину свой токен 2captcha и убедиться, что у вас достаточно средств на счету 2Captcha.
Стоит отметить, что вы можете использовать поставщика решений по своему выбору, предоставив плагину функцию вместо вашего токена 2Captcha (подробнее об этом читайте в документации API), или же вы можете просто придерживаться встроенного поставщика 2Captcha, так как это относительно дешевое решение.
Как работает плагин?
- reCAPTCHA используют ключ сайта, который специфичен для сайта. Внешний поставщик решений получает этот ключ сайта и URL-адрес сайта, после чего решает задачу и выдает токен ответа. Токен ответа после решения задачи не привязан к конкретной сессии или IP и может передаваться другим пользователям до истечения срока действия.
- При вызове page.solveRecaptchas() плагин автоматически обнаруживает все активные reCAPTCHA и hCaptchas, извлекает их конфигурацию и ключ сайта, передает их указанному поставщику решений и помещает решение обратно на страницу, чтобы вызвать обратный вызов (отправку формы, переход на новую страницу и т. д.), который мог указать владелец сайта.
Даже если вы вызовете метод, когда капча еще не видна на странице, плагин подождет, пока она появится на экране, и решит ее, как только она появится. А для страниц без капчи метод page.solveRecaptchas() просто разрешит обещание, и остальной код будет выполняться нормально, без лишних хлопот.
Плагин также можно использовать для обхода невидимых reCAPTCHA, которые в основном используются для определения вероятности того, что пользователь является ботом. Для этого пользователю присваивается балл, на основании которого владелец сайта может предъявить ему reCAPTCHA-задачу, которую этот плагин решает автоматически. Вызов метода page.solveRecaptchas() автоматически решает все эти капчи, в том числе и многократные для данного сайта.
Плагин поддерживает все reCAPTCHA и hcaptchas, такие как reCAPTCHA v2, reCAPTCHA v3, invisible reCAPTCHA, hCaptcha и invisible hCaptcha, но единственная оговорка заключается в том, что он не охватывает все виды CAPTCHA.
Тем не менее, плагин является хорошо поддерживаемым и проверенным в боях инструментом, который также является экономически эффективным решением для обхода капчи.
GoodByeCaptcha
GoodByeCaptcha — это асинхронная библиотека Python, разработанная для упрощения и автоматизации процесса решения задач ReCAPTCHA v2. Библиотека разработана специально для решения задач ReCAPTCHA v2, включающих изображения и аудио, используя различные API для распознавания речи, включая DeepSpeech от Mozilla, PocketSphinx, Microsoft Azure, Wit.AI, Google Speech и Transcribe Speech-to-Text API от Amazon. Такой широкий спектр возможностей обеспечивает высокий процент успеха при расшифровке аудио CAPTCHA.
Помимо аудиозадач, GoodByeCaptcha отлично справляется с CAPTCHA на основе изображений. Библиотека оснащена функциями распознавания изображений, что позволяет ей точно идентифицировать объекты, изображенные на изображениях CAPTCHA. Эта функция добавляет в арсенал инструмента дополнительный уровень универсальности, делая его еще более грозным противником против CAPTCHA, основанных на изображениях.
Как работает GoodByeCaptcha?
- Библиотека использует возможности Puppeteer, фреймворка автоматизации Chrome, который очень похож на Puppeteer. Эта основа позволяет GoodByeCaptcha беспрепятственно взаимодействовать с браузером, имитируя действия и взаимодействия, похожие на человеческие.
- Для облегчения обработки аудио в библиотеку интегрирована PyDub, удобная утилита для легкого преобразования MP3-файлов в формат WAV. Эта возможность упрощает обработку аудиозадач CAPTCHA, обеспечивая совместимость с различными API распознавания.
- Асинхронный характер архитектуры GoodByeCaptcha построен на фундаменте aiohttp и встроенного в Python AsyncIO. Эта комбинация позволяет библиотеке эффективно и параллельно выполнять свои задачи, минимизируя задержки и предоставляя пользователям быстрые результаты.
В целом, использование в GoodBye Captcha различных API для распознавания речи, распознавания изображений и хорошо зарекомендовавших себя технологий Python делает ее ценным активом для разработчиков и исследователей, стремящихся повысить эффективность решения CAPTCHA.
2Captcha
Когда речь заходит об обходе CAPTCHA для веб-скрейинга, одним из самых известных инструментов на рынке является 2Captcha, предоставляющая решения для reCAPTCHA V2, hCaptcha, reCAPTCHA V3, FunCaptcha, распознавания звука и многого другого. Компания предлагает подход к решению CAPTCHA с помощью толпы, предлагая API, которые позволяют легко интегрировать ее сервис решения CAPTCHA в ваши скрипты или приложения для веб-парсинга, позволяя вам автоматизировать весь процесс.
Чтобы узнать больше о бесшовной интеграции 2Captcha в скрипты веб-парсинга, посмотрите это видео.
Как работает 2Captcha:
- Шаг 1: Регистрация для получения ключа API Для доступа к сервисам 2Captcha вам понадобится ключ API, который можно получить при регистрации.
- Шаг 2: Загрузка CAPTCHA Когда вы сталкиваетесь с CAPTCHA при сборе данных с сайта, вы можете отправить изображение CAPTCHA на 2captcha.com/in.php.
- Шаг 3: Генерация уникального идентификатора После получения CAPTCHA сервер надежно сохраняет изображение и генерирует уникальный идентификационный код, известный как CAPTCHA ID.
- Шаг 4: Распределение между сотрудниками После того как CAPTCHA ID сгенерирован, сервер 2Captcha оперативно передает задание сотруднику.
- Шаг 5: Решение и отправка ответа Назначенный сотрудник решает задачу CAPTCHA и оперативно отправляет ее обратно на сервер 2Captcha, как только решение будет найдено.
- Шаг 6: Получение ответа Вы можете отправить запрос на сервер, используя свой CAPTCHA ID, чтобы получить решение.
Одним из главных преимуществ 2Captcha является то, что это решение CAPTCHA, основанное на человеческом факторе, и поэтому оно может обойти любой вид проверки CAPTCHA. Кроме того, его легко интегрировать в скрипты, поддерживающие такие языки программирования, как Python, PHP, Ruby, Go, C# и Java.
Если говорить о цене, то этот инструмент может оказаться экономически выгодным решением. Его цена начинается от 1$ за 1000 CAPTCHA, плата взимается только за решенные CAPTCHA, при этом нагрузка на сервер не является фактором при расчете цены.
Таким образом, если вы ищете инструмент исключительно для решения CAPTCHA, 2Captcha может стать идеальным выбором. Но помимо решения CAPTCHAs, он не предлагает никаких дополнительных возможностей, таких как автоматическая ротация IP-адресов, обширные прокси-сети и т.д., которые предлагают другие продвинутые решения для веб-скрейинга.
Заключение
Подводя итог, можно сказать, что хотя веб-сайтам имеет смысл использовать механизмы безопасности для предотвращения использования своих данных, CAPTCHA также могут представлять значительную проблему для законных проектов веб-парсинга, особенно крупных, которые полагаются на свежий, точный и бесперебойный сбор данных. Независимо от того, новичок ли вы в мире веб-скрейинга или опытный ветеран, вы неизбежно столкнетесь с CAPTCHA и будете вынуждены принимать меры для их обхода. Инструменты, о которых пойдет речь в этой статье, призваны сэкономить ваше время и ресурсы и сделать обход CAPTCHA простым делом, чтобы вы могли сосредоточиться на сборе нужных вам данных.
Среди них Scraping Browser от Bright Data выделяется как комплексное решение, легко объединяющее технологию обхода CAPTCHA и управление прокси-серверами с удобством «с головы», полностью автоматизированного браузера с графическим интерфейсом. Это пакет «все в одном» и, несомненно, идеальное решение для проектов скрейинга корпоративного уровня. Кроме того, в комплект поставки входит бесплатная пробная версия, так что вы можете попробовать ее, чтобы понять, подходит ли она под ваши требования или нет.
Между тем, плагин Puppeteer Extra Stealth NPM Plugin помогает обеспечить анонимность и избежать обнаружения ботов, а плагин Puppeteer Extra ReCaptcha NPM Plugin автоматизирует решение reCAPTCHA. Эти плагины стоят недорого, хорошо протестированы и надежны, особенно для небольших проектов. Объединение этих двух плагинов может обеспечить еще большую эффективность.
GoodByeCaptcha — хороший выбор для обхода CAPTCHA на основе аудио. 2Captcha также надежен, так как является человеческим решателем CAPTCHA и экономически эффективен, но его применение ограничено.
Вы можете выбрать тот инструмент, который подходит вам больше всего, в зависимости от вашего случая использования (или выбрать несколько, если это необходимо). Но в целом эти 5 инструментов помогут вам избежать назойливых CAPTCHA и обеспечат плавный, непрерывный и бесперебойный процесс сбора данных.
БЫТОВЫЕ УСЛУГИ
База всех компаний в категории: ПОСТАВЩИК ЭНЕРГИИ
ТОРГОВЫЕ УСЛУГИ
База всех компаний в категории: АВТОМАТИЗАЦИЯ ТОРГОВЛИ
ОХРАННАЯ ДЕЯТЕЛЬНОСТЬ
База всех компаний в категории: СЛУЖБА ОХРАНЫ
ОБРАБАТЫВАЮЩИЕ ПРОИЗВОДСТВА
База всех компаний в категории: ОКВЭД 28.49.12 — ПРОИЗВОДСТВО ДЕРЕВООБРАБАТЫВАЮЩИХ СТАНКОВ
АВТОМОБИЛЬНЫЕ УСЛУГИ
База всех компаний в категории: ТРАНСПОРТНЫЕ СРЕДСТВА ПЕРЕОБОРУДОВАНИЕ
СТРОИТЕЛЬСТВО
База всех компаний в категории: ОКВЭД 43.29 — ПРОИЗВОДСТВО ПРОЧИХ СТРОИТЕЛЬНО-МОНТАЖНЫХ РАБОТ
УСЛУГИ ПРОИЗВОДСТВА
База всех компаний в категории: МАТРАСЫ
МЕДИЦИНСКИЕ УСЛУГИ
База всех компаний в категории: ПСИХИАТРИЧЕСКИЕ УЧРЕЖДЕНИЯ