Блокирует ли Akamai анти-бот систему вашего бота? Пока вы не научитесь обходить ее, вы не сможете выполнять свои задачи по автоматизации на защищенных ею сайтах. Ниже приведена статья о том, как обойти Akamai.
ДОСТАВКА ТОВАРОВ И ПРОДУКТОВ
ТРАНСПОРТИРОВКА И ХРАНЕНИЕ
СФЕРА РАЗВЛЕЧЕНИЙ
ОБРАБАТЫВАЮЩИЕ ПРОИЗВОДСТВА
База всех компаний в категории: ОКВЭД 20.52 — ПРОИЗВОДСТВО КЛЕЕВ
Детекторы ботов, такие как Akamai, могут определить, какой бот хороший, а какой плохой. Именно поэтому, наряду со многими другими причинами, владельцы сайтов устанавливают сети доставки контента (CDN), чтобы не только обеспечить быструю доставку контента, но и отвести угрозы. Как исследователь, занимающийся поиском информации в Интернете по различным причинам, ваши действия, которые могут навести на мысль о том, что вы добываете данные с помощью ботов, могут привести к тому, что вас заблокируют. Ваши намерения могут быть правильными и искренними, но детектор ботов этого не знает. Главный вопрос заключается в том, как обойти этот антибот-детектор, пока вы занимаетесь парсингом, или краулингом, в зависимости от ситуации? В этой статье мы рассмотрели несколько действий, которые вы можете предпринять, чтобы обойти этот сложный CDN и инструмент кибербезопасности под названием Akamai. Но прежде чем мы начнем рассматривать их одно за другим, давайте узнаем немного об Akamai и о том, как он работает.
Основанная в 1998 году, компания Akamai Technology является ведущей сетью доставки контента. Она предоставляет услуги по доставке медиа и программного обеспечения, облачные услуги и услуги по кибербезопасности для организаций. Компания Akamai работает по меньшей мере в 135 странах мира, имеет более 100 тысяч серверов по всему миру, предназначенных для быстрой и качественной доставки контента для организаций. Она помогает обеспечить безопасность веб- и облачных операций этих организаций. Кроме того, компания выполняет функции интернет-надзора, постоянно следя за хакерами, вредоносными ботами и пользователями, которым закрыт доступ к веб-сайту организации. Помимо защиты сайтов организаций от кибератак, он также ускоряет доставку контента конечным пользователям и оптимизирует время загрузки сайта организации. Она выступает в качестве посредника между конечным пользователем и организацией, сокращая задержки до минимума. Akamai оптимизирует веб-контент для любого типа устройств, тем самым обеспечивая беспрепятственный доступ для конечных пользователей. Что делает Akamai еще лучше, так это то, что не требуется никакого дополнительного оборудования или программного обеспечения. Она помогает разгрузить существующую инфраструктуру и масштабируется еще лучше. Akamai призван решить проблему кластеризации данных из-за большого объема запросов, которые могут возникать, когда у организации большая клиентская база. Это достигается за счет оптимизации существующих серверов для ускорения трафика и, в то же время, защиты от любых угроз, которые могут существовать.
Задумывались ли вы, почему некоторые веб-сайты медленно обрабатывают запросы? Это потому, что они не используют технологию Akamai! Без технологии Akamai, когда клиент пытается получить доступ к веб-сайту, который принимает клиентов со всего мира, например, он будет расстроен задержкой веб-сайта. Это происходит потому, что запрос клиента должен пройти через множество стран, чтобы попасть на сервер компании. Долгий и утомительный процесс является причиной задержки. Таким образом, крупные компании теряют много клиентов и денег. Сервер компании без Akamai может обрабатывать только определенное количество запросов. Когда этот запрос превышает свой лимит, он замедляет свою эффективность, что, можно сказать, плохо для крупного бизнеса. Akamai имеет более 100 000 (ста тысяч) серверов по всему миру. Это означает, что ближе всего к клиенту находится сервер Akamai. Поэтому каждый раз, когда они отправляют запрос, их устройства связываются с ближайшим к ним сервером Akamai.
В свою очередь, этот сервер подключается к серверу Akamai, расположенному ближе всего к целевому веб-сайту, получает информацию и отправляет ее обратно клиентам в течение нескольких секунд. Помимо того, что это быстрее, чем обычный способ, он также кэширует и оптимизирует запросы, такие как видео, для любого устройства в любом месте. И, конечно же, это еще и безопасно. Обычно при атаке DDoS (Distributed Denial of Service) сервер компании подвергается многочисленным угрозам со стороны хакеров и других злонамеренных интернет-преступников. Это приводит к поломке сервера. Но с Akamai сервер компании не может быть поражен, поскольку вместо него удар примут на себя многочисленные серверы Akamai по всему миру. Несколько пострадавших серверов Akamai могут выйти из строя, но остальные незатронутые серверы будут работать до тех пор, пока пострадавшие серверы не восстановятся. Таким образом, сервер компании остается нетронутым и безопасным. Следовательно, компания получает хорошие отзывы от довольных клиентов и зарабатывает больше денег.
Некоторые виды деятельности в Интернете требуют использования ботов для отправки многочисленных запросов с невероятной скоростью, превышающей возможности человека. Это может привести к блокированию доступа пользователя к веб-сайту запрограммированным механизмом обнаружения ботов, также известным как брандмауэр веб-приложений (WAF). Это может не иметь прямого отношения к людям, которые используют этих ботов для различных подлинных целей, таких как исследования, учеба, сравнение и т.д. Но анти-бот системам веб-сайта может быть трудно отличить хороших ботов от плохих. Ниже мы рассмотрим различные способы обхода Akamai для исследовательских, академических, сравнительных и других явных целей.
Файлы Robots.txt — это набор правил или инструкций для ботов. Многие сайты имеют свой свод правил для ботов, но поскольку он не связан ни с одним сайтом, вы не можете получить к нему доступ, чтобы оценить. В то время как вы не можете получить к нему доступ, ваши боты могут. Сначала он попытается прочитать изложенные инструкции и следовать им, если это хороший бот, например, веб-краулер. В противном случае он либо проигнорирует инструкции, либо, в лучшем случае, обработает их, чтобы обнаружить запрещенные веб-страницы. Веб-сайты ожидают, что хороший бот не будет игнорировать эти правила robots.txt. Поэтому для таких ботов не предусмотрено никакого наказания. Но плохой бот, пытаясь игнорировать эти правила, сам себя забанит, тем самым остановив ваш парсинг. Для сайта, который использует Akamai, потребуется всего несколько секунд, чтобы заблокировать вас, если он обнаружит, что вы грубо пренебрегаете его правилами, собирая содержимое, заблокированное robot.txt. Поэтому, чтобы быть на более безопасной стороне, убедитесь, что вы не ползаете по страницам, которые запрещены robots.txt.
Без прокси-серверов, когда вы парсите веб-сайт, ваш IP виден, и вы всего в одной секунде от того, чтобы быть заблокированным, если вы пересечёте красную линию. Пересечение красной линии здесь означает нарушение правила работы с веб-сайтом. Если вы отправите несколько запросов, используя один и тот же IP, вы будете заблокированы. Чтобы избежать этого, вам нужно получить много разных IP-адресов, и именно здесь на помощь приходят прокси-серверы. Прокси помогают замаскировать вашу личность в Интернете, оставляя вас анонимным, пока вы собираете данные. Кроме того, некоторые прокси имеют функцию вращения. То есть, отправляя запросы, они автоматически меняют ваш IP-адрес в течение определенного времени. Постоянная смена IP-адресов затрудняет обнаружение или блокировку веб-сайтов. Поэтому, чтобы победить Akamai, вам нужно приобрести хороший вращающийся прокси. На рынке их довольно много, но жилые прокси более надежны, если вы собираетесь отправлять огромное количество запросов. Они, как правило, немного дороже прокси центров обработки данных и не такие быстрые, как центры обработки данных, потому что это физические устройства. Но вы можете быть уверены в безопасности, так как они уберегут вас от обнаружения Akamai и будут менять ваши прокси-серверы так часто, как вы захотите.
Безголовые браузеры — это браузеры, которые не имеют графического интерфейса пользователя (GUI). В отличие от обычных браузеров, они не имеют кнопок или значков, с которыми можно взаимодействовать. Безголовые браузеры обычно запускаются через командную строку или сетевое взаимодействие. Среди многочисленных областей их применения — поиск общедоступных данных. Однако здесь может возникнуть небольшая проблема. Веб-сайты понимают, что настоящие веб-браузеры могут блокировать Javascript. Самый простой способ для них обнаружить безголовый браузер — проверить, может ли веб-браузер отобразить блок Javascript. Если он не может, то посещение помечается как бот. Чтобы решить эту проблему, необходимо использовать некоторые библиотеки, которые автоматически контролируют безголовые браузеры, например Selenium Puppeteer и Playwright.
Браузеры по умолчанию отправляют набор HTTP-заголовков, когда вы делаете запрос. Веб-сайты могут анализировать вашу личность по этим заголовкам. Чтобы сделать вас похожим на. Человека, просто скопируйте и вставьте их в объект заголовка внутри вашего кода. Это создаст впечатление, что вы посылаете запросы от настоящего браузера, тем самым обманывая Akamai, что это настоящий браузер. Будьте скрупулезны при их изменении. Убедитесь, что вы изменили только то, что вам необходимо. Убедитесь, что весь набор имеет смысл. Akamai почувствует, что что-то не так, если вы добавите одинаковые заголовки для Chrome и других браузеров. Давайте поговорим о реферерах. Это HTTP-запросы, которые дают сайту знать, откуда вы пришли. В идеале вы используете Google в качестве реферера, чтобы казалось, что вы пришли с Google. Это так, потому что большинство сайтов генерируют трафик с Google, поэтому Akamai не заподозрит нечестной игры. Если вы хотите сделать Google своим реферером, вы можете написать заголовок следующим образом: referrer:https://Google.com/ Если вы отправите запрос без использования Google в качестве реферера, chrome отправит sec-fetch-site:none, но если вы установите Google в качестве реферера, браузер отправит sec-fetch-site:cross-site. Вы можете проверить общие рефереры для любых веб-сайтов с помощью такого инструмента, как similarweb. В большинстве случаев это будет сайт СМИ-разделителя, например Twitter или LinkedIn.
Антипарсинговые инструменты с каждым днем становятся все умнее и могут определить, контролируется ли браузер с помощью автоматизации библиотеки. Это более продвинутый метод, чем просто проверка того, может ли ваш браузер блокировать Javascript или нет. Инструменты обнаружения ботов могут определить, контролируется ли браузер автоматизированными библиотеками, если:
Все вышеперечисленное объединяется и посылает бот-детектору сообщение о том, что клиент является ботом или человеком. Надежным способом обойти это обнаружение и избежать блокировки является использование этих плагинов:
Помните, что эти библиотеки автоматизации могут быть обнаружены независимо от этого, поскольку веб-сайты в настоящее время повышают свою игру по обнаружению, улучшая свои модели искусственного интеллекта. Поэтому они не являются на 100% надежными. Добавление прокси-сервера — отличная идея, так как это гарантирует вам беспрепятственное ползание или парсинг, в зависимости от ситуации. Помимо помощи в маскировке, частая ротация IP-адресов позволяет выиграть немного времени и гарантирует успешный парсинг.
Агент пользователя — это инструмент, который отправляет сообщение веб-серверу о том, какой тип веб-браузера вы используете для доступа к веб-сайту. Без наличия такого агента пользователя сайты будут отказывать вам в доступе к их содержимому. Чтобы узнать свой агент пользователя, можно выполнить быстрый поиск в Google по ключевым словам «What is my user agent?». Если вы используете один и тот же агент пользователя снова и снова, системы Akamai веб-сайта определят вас как бота и заблокируют. Чтобы обойти это обнаружение и блокировку, вам, возможно, придется установить поддельный пользовательский агент. Через некоторое время вам придется повторить то же самое, чтобы ваш пользовательский агент не стал выглядеть для Akamai как бот. Вы можете получить пользовательские агенты от разработчиков браузеров. У них есть множество агентов пользователя для всех видов программного обеспечения браузеров, операционных систем, операционных платформ, типов программного обеспечения, типов оборудования и движков верстки. Ротация вашего агента пользователя — это хорошо, но это может помочь вам избежать только базового обнаружения и блокировки Akamai. Если ваши боты продолжают блокироваться даже после использования нового агента пользователя, то вам следует подумать о добавлении дополнительных HTTP-заголовков.
На человека не похоже, чтобы он постоянно занимался только Интернетом. Известно, что люди занимаются различными видами деятельности во время просмотра сайтов. То же самое нельзя сказать о ботах. Боты предназначены для выполнения определенной задачи, и они делают это снова и снова, причем быстро. Пока его не переделают для выполнения другой конкретной задачи, он продолжает делать то, что ему поручили. Благодаря такой повторяющейся модели деятельности Akamai очень легко обнаружить его и выгнать с сайта компании в считанные секунды. Время от времени включайте случайные клики на странице сайта. Несколько случайных кликов здесь и там сделают бота похожим на человека, и тогда Akamai будет довольно сложно определить его как бота.
Думайте о медовой точке как о ловушке для грызунов с тщательно расставленной вкусной едой, чтобы обмануть грызуна, заставить его съесть еду и отрубить хвост. В мире систем компьютерной безопасности «медовая точка» работает аналогично. Она имитирует цель для хакеров, обманывая их, чтобы они нажали на кнопку и тем самым передали свои данные в систему. Honeypot выглядит как настоящая компьютерная система, с приложениями и данными, обманывая ничего не подозревающих хакеров, заставляя их думать, что это и есть настоящая цель. Он определяет действия хакеров по их методам работы и таким образом узнает их истинные намерения. В большинстве случаев он используется веб-сайтами, чтобы понять, где нужно усилить свою архитектуру безопасности. Например, в honeypot могут быть порты, которые отвечают на сканирование портов, или слабые пароли. Уязвимые порты могут быть открыты, чтобы хакеры могли проникнуть в среду honeypot, а не в реальную и защищенную сеть. Akamai оперативно обнаруживает и блокирует краулеры, ставшие жертвой медовой точки spiders (тип медовой точки, предназначенной для веб-краулеров). Хотя медовые точки не видны вам, веб-краулеры их видят. Со своей стороны, избегайте невидимых ссылок, насколько это возможно. Даже если они не предназначены для вас, как для настоящего парсера, это не помешает вашему боту быть заблокированным в случае обнаружения.
Если вы занимаетесь сканированием веб-сайтов в больших масштабах и слишком быстро, без каких-либо признаков того, что вы человек, вы будете перехвачены Akamai. Это происходит потому, что, судя по вашим действиям, вы можете использовать бота, что противоречит условиям большинства сайтов. Это заставит CAPTCHAS столкнуться с вами, чтобы подтвердить, являетесь ли вы человеком или нет. В этом случае лучше всего воспользоваться услугами CAPTCHA-решения, чтобы решить эту проблему. Этот инструмент поможет вам решить проблемы с капчей с помощью OCR (оптического распознавания символов). Этот метод помогает решить капчу автоматически. Услуги CAPTCHA-solving относительно дешевы и являются удобным инструментом, когда вы занимаетесь парсингом в больших объемах.
Ниже приведены некоторые надежные инструменты для решения капчи:
a) EndCaptcha — Этот поставщик услуг по решению капчи имеет самую высокую скорость решения капчи на рынке. У них высокий уровень точности и высокая приверженность к капчам, чувствительным к регистру.
б) Captcha Snipers — Captcha Snipers очень быстро и точно решают проблемы с капчей. Это снижает ваши затраты, поэтому вам не придется много платить за их услуги.
c) 2Captcha — Этот сервис решения капчи имеет 15 секунд для решения обычной капчи и 50 секунд для решения JS-капчи.
Одна из проблем, с которой вы можете столкнуться при отбраковке, — это изменение макета страницы. Периодически веб-сайты обновляют свой контент, чтобы улучшить опыт пользователей или добавить новые функции. Это может привести к изменению макета сайта. Веб-парсеры настроены на сканирование определенных страниц. Если эти страницы меняются или изменяются, им будет трудно спарсить такие страницы или они вообще не будут работать. В этом случае вам придется настроить свой парсер. Проверьте, насколько макет отличается от остальных страниц, и внесите в код условие, чтобы спарсить эти страницы по-другому. Иногда даже незначительное изменение может потребовать перенастройки вашего парсера.
Если и есть что-то, по чему Akamai может быстро определить вас и сделать вывод, что вы используете бота, так это скорость получения данных. Известно, что боты извлекают данные со скоростью, с которой не может сравниться ни один человек. Это действие приводит в действие механизмы Akamai или другие антибот-детекторы, поэтому вы будете заблокированы раньше, чем узнаете об этом. Кроме того, используя ботов (без прокси), вы сами себя заблокируете, а серверу сайта придется много работать. Таким образом, отправка многочисленных запросов может привести к его кратковременной поломке. Чтобы избежать этой проблемы, вы можете запрограммировать свой инструмент для парсинга так, чтобы он делал перерыв между сбором данных. Это позволит ему выглядеть как человек, и, возможно, ему повезет избежать гнева Akamai. Кроме того, это предотвратит падение сайта. Соскабливайте наименьшее количество страниц за один раз, делая одновременный запрос. В идеале, делайте перерыв между запросами в 10-20 секунд.
Часто задаваемые вопросы об обходе Akamai
Q. Как определить, использует ли сайт технологию Akamai? Прежде чем придумывать способ обхода Akamai, необходимо убедиться, что сайт, с которого вы собираетесь соскабливать данные, использует технологию Akamai или нет. Существует 3 способа подтверждения этого, мы остановимся на двух.
Шаг 1: Войдите в центр управления Akamai
Шаг 2: Выберите Ваши услуги >> Поддержка >> Инструменты диагностики >> URL отладки
Шаг 3: Введите URL веб-сайта, включая протокол (например, https://example.com).
Шаг 4: Если при использовании инструмента Debug URL разрешается в IP (как показано красной линией на изображении ниже), значит, сайт использует Akamai.
Шаг 5: Если результат показывает URL: Given URL/Hostname not akamized (выделено красным цветом на рисунке ниже), значит, сайт не использует Akamai.
Q. Какая часть Интернета использует Akamai? Более половины компаний из списка Fortune 500 полагаются на Akamai для обеспечения бесперебойной работы своих сервисов. Кроме того, 225 издателей игр, 200 национальных правительственных учреждений и платформы социальных сетей по всему миру. В целом, по данным компании, 85% пользователей Интернета находятся на одном шаге от сети Content Delivery Network (CDN), управляемой Akamai. Отличительной чертой Akamai является то, что ее серверы расположены в стратегически важных местах по всему миру. Однако во время covid, когда рабочие практики приняли другой оборот, рост использования подкосил буфер, который Akamai любит держать вокруг своих CDN. Компания Akamai полностью соблюдает GDPR и другие правила защиты данных в странах, где она работает. Когда они делают жизнь миллиардов людей лучше миллиарды раз в день, вполне ожидаемо, что они защищают жизнь этих людей в Интернете, как и всех остальных. По их словам, это обязательство является основополагающим для доверия, которое оказывают им их клиенты. Akamai постоянно анализирует новые правовые нормы и соответствующим образом адаптируется для поддержания соответствия. Akamai не собирает, не получает доступ и не хранит данные клиентов, кроме тех, которые необходимы для доставки и обеспечения безопасности трафика. Сохранение доверия и уверенности своих клиентов остается их главным приоритетом.
Без сомнения, уход от обнаружения антибот систем — это сложный разговор. Тем не менее, следует обращать внимание на детали, чтобы избежать ошибок и получить запрет еще до начала работы. Не забывайте соблюдать правила robots.txt. И не делайте большие объемы. Запрограммируйте свой инструмент для парсинга так, чтобы он время от времени делал паузу между извлечениями. Akamai может быть очень эффективным и активным, но его все равно можно обмануть. Использование прокси-серверов на протяжении всего времени — один из верных способов обхода. Мы надеемся, что вы узнали кое-что об Akamai и о том, как обойти его бдительное око.
Краткое резюме: как превратить сеть сайтов в стабильный источник дохода Создание сети информационных сайтов —…
Знаете ли вы, что невидимые технические ошибки могут «съедать» до 90% вашего потенциального трафика из…
Введение: почему мониторинг цен — необходимость, а защита — не преграда Представьте, что вы пытаетесь…
Значительная часть трафика на любом коммерческом сайте — это не люди. Это боты, которые могут…
Систематический мониторинг цен конкурентов — это не просто способ избежать ценовых войн, а доказанный инструмент…
Краткое содержание В мире, где 93% потребителей читают отзывы перед покупкой 1, а рейтинг компании…