Парсинг – это совершенно законно, правда?

«Ой ладно, я столько сил приложил, работая над этим проектом! И это общедоступные данные! Определенно должна быть лазейка, так ведь? Или, выходит, я все это сделал зря… Ох…»  Да, вот так я и говорил себе, когда понял, что мой амбициозный проект по анализу данных может принести мне неприятности. Я намеревался запустить поискового робота – парсера – который работал бы в крупных масштабах, чтобы собрать данные с множества крупных сайтов. А после этого я планировал опубликовать результаты своего анализа, чтобы принести всем пользу. Довольно благородно, правда? Да, но еще и довольно рискованно.

Примечательно, что в последнее время мне стало попадаться все больше и больше таких же проектов, как мой. И еще больше – руководств, которые подталкивают парсингу. Но что меня беспокоит, так это то, как ужасающе широко распространена безграмотность относительно правового аспекта в этом деле. В общем, вот о чем этот пост: о понимании возможных последствий веб-парсинга и веб-краулинга. Надеюсь, пост поможет вам избежать потенциальных проблем.

[su_box title=”Нужны данные для вашего бизнеса?” style=”default” box_color=”#085fc8″]

Бесплатно регистрируйтесь на нашем портале https://ru.xmldatafeed.com и используйте ежедневные итоги парсинга крупнейших сайтов России (товары и услуги)!

[/su_box]

Дисклеймер: я не юрист. Я просто программист, который, так уж получилось, заинтересовался этой темой. Вам стоит поискать соответствующие профессиональные советы, касающиеся вашей конкретной ситуации. И сказанное ниже в больше степени относится к Северной Америке.

Что такое парсинг и краулинг?

Давайте для начала определимся с терминами, чтобы быть уверенными, что думаем об одном и том же. Парсинг – это процесс регулярного автоматического скачивания данных с веб-страницы и извлечение из нее конкретной информации. Извлеченная информация может храниться практически где угодно (в базе данных, файле и т.д.). Краулинг – это процесс автоматического скачивания данных с веб-страницы, извлечение гиперссылок, которые на ней есть, и переход по ним. Скачанные данные обычно хранятся в каталоге или в базе данных, чтобы можно было легко запустить поиск по ним.

Например, вы используете парсер, чтобы извлечь данные о прогнозе погоды с сайта Национальной метеорологической службы. Это позволит вам проанализировать их. С другой стороны, вы можете использовать краулер, чтобы скачать данные сразу со многих сайтов, и сделать поисковой движок. Может, вы уже слышали про Гуглбота (Googlebot), собственный веб-краулер Гугла. Выходит, по сути, парсеры и веб-краулеры используются в самых разных целях.

Почему парсинг часто представляют в негативном свете?

Репутация веб-парсинга была сильно подмочена в последние несколько лет, и это справедливо:

  • Его все больше используют в интересах бизнеса, чтобы получить конкурентное преимущество. Так что часто за этим стоит финансовая мотивация.
  • Часто парсинг используют, совершенно игнорируя авторское право и условия обслуживания.
  • Парсинг нередко используют нечестно, злоупотребляют им. Например, парсеры могут посылать куда как больше запросов в секунду, чем человек, и это выливается в неожиданную нагрузку на сайты. Еще парсеры могут оставаться анонимными и никак себя не определять. И, в конце концов, они могут выполнять еще и запрещенные действия: обходить меры безопасности, которые защищают данные от автоматического скачивания и делают их недоступными в любом другом случае.

Куча людей и компаний используют свои собственные парсеры прямо сейчас. Их так много, что это уже стало головной болью компаний, чьи сайты парсят. Например, страдают социальные сети (типа Фейсбука, LinkedIn и т.д.) и онлайн-магазины (типа Амазона). Возможно, именно поэтому у Фейсбука есть отдельные правила для автоматического сбора данных.

С другой стороны, это исторический факт: краулинг использовался известными поисковыми движками (типа Гугла, Бинга и т.д.), чтобы скачивать и каталогизировать веб. За долгие годы эти компании заработали положительную репутацию, потому что они создали совершенно необходимые инструменты, которые сделали сайты, которые они краулят, более ценными. Так что, по сути, краулинг представляется в более выгодном свете, хотя им тоже иногда можно злоупотребить.

Так парсить законно или незаконно?

Парсинг и краулинг не незаконны сами по себе. В конце концов, вы можете парсить или краулить свой собственный сайт, вам никто не указ. Проблема возникает, когда вы парсите или краулите чей-то чужой сайт, не получив письменного разрешения или вопреки условиям обслуживания. По сути, вы сами ставите себя в уязвимую позицию.

Только подумайте об этом. Вы используете чужую пропускную способность, свободно получаете и используете чужие данные. Логично было бы решить, что владельцу данных это не понравится, потому что то, что вы делаете, может ему каким-нибудь образом навредить. Так что, в зависимости от многих факторов (и настроения владельца), он полностью вправе преследовать вас в судебном порядке.

Знаю, о чем вы сейчас подумали. «Ой да ладно! Это же смешно! С какой стати владелец будет подавать на меня в суд?». Конечно, он может вас просто проигнорировать. Или просто использовать свои технические возможности, чтобы заблокировать вас. Или просто прислать вам запретительное письмо. Но технически ничто не может помешать владельцу подать на вас в суд. Это реальная проблема.

Нужны доказательства? Дело LinkedIn против неизвестных ответчиков: LinkedIn подал в суд на примерно 1-100 человек, которые анонимно парсили сайт. И за что он подал в суд на всех этих людей? Давайте посмотрим:

  • Нарушение Закона о компьютерном мошенничестве и злоупотреблении.
  • Нарушение уголовного кодекса Калифорнии.
  • Нарушение Закона об авторском праве в цифровую эпоху.
  • Нарушение договора.
  • Вторжение на чужую территорию.
  • Хищение.

Этот судебный процесс вызывает реальное беспокойство, потому что на самом деле неясно, что будет с теми «анонимными» людьми. Учтите: если на вас подадут в суд, вы не сможете просто отклонить иск. Вам нужно будет защищаться в суде, чтобы доказать, что вы не сделали ничего противоправного. И неважно, честно это или нет, действительно вы сделали что-то незаконное или нет.

Другая проблема состоит в том, что право – это скорее всего нечто, к чему вы непривычны. Потому что в то время как вы будете использовать логику, здравый смысл и техническую экспертизу, они будут использовать правовой язык и серую зону права, чтобы доказать, чтобы вы сделали что-то плохое. Это определенно не та ситуация, в которой приятно оказаться. Так что вам понадобится адвокат, и это может стоить вам кучу денег.

К тому же, если отталкиваться от судебного процесса LinkedIn, описанного выше, можно увидеть, что дела несомненно могут становиться довольно сложными и объемными, даже если вы «просто парсили сайт».

Типичные контраргументы

Я понял, что в целом люди стараются оправдать парсинг и краулинг, принижая их значимость. И у таких людей обычно одни и те же типичные аргументы, которые используются снова и снова. Давайте сделаем обзор самых распространенных.

«Я могу делать все что угодно с общедоступными данными»

Неверно. Проблема в том, что авторские права на «творческую расстановку» данных могут кому-то принадлежать, как описано на сайте cendi.gov: «Авторское право на факты не может кому-то принадлежать. Тем не менее, творческая выборка, координация и расстановка информации и материалов, которые формируют базу данных или компиляцию, могут быть защищены законом. Однако заметьте, что защита авторского права распространяется только на творческие аспекты, не на сами факты, которые хранятся в базе данных или компиляции».

Итак, сайт – включая его страницы, дизайн, планировку и базу данных – может быть защищен законом об авторском праве, потому что считается творческой работой. И если вы парсите этот сайт, чтобы извлечь информацию, то даже сам факт простого копирования и сохранения веб-страницы с помощью парсера может быть расценен как нарушение авторского права. В Соединенных Штатах авторская работа защищена Законом об авторском праве в цифровую эпоху.

«Это добросовестное использование!»

Это серая зона:

  • В деле Келли против Arriba Soft Corp. суд постановил, что Ditto.com, поисковой движок, работавший по изображениям, добросовестно использовал фотографии профессиональных фотографов, показывая только иконки-превью.
  • В деле Assosiated Press против Meltwater U.S. Holdings, Inc. суд постановил, что новостной агрегатор Meltwater недобросовестно использовал статьи Associated Press, даже несмотря на то, что полученные парсером статьи были показаны только в качестве выдержек из оригиналов.

«Это то же самое, что обычно делает мой браузер! парсинг сайта технически не отличается от использования веб-браузера. В любом случае, я мог бы собрать данные вручную!»

Неверно. Условия обслуживания часто содержат пункты, которые запрещают краулинг/парсинг/харвестинг и вообще автоматическое использование сопутствующих услуг. Ваши руки связаны этими условиями. Неважно, что вы могли бы собрать данные вручную.

«Худшее, что может случиться, если я нарушу условия обслуживания, – меня забанят или заблокируют».

Это серая зона:

  • В деле Фейсбук против Пита Уордена адвокат Фейсбука угрожал мистеру Уордену подать на него в суд, если он опубликует свой набор данных, который состоит из сотен миллионов профилей Фейсбук.
  • В деле Linkedin Corporation против Майкла Джорджа Китинга Linkedin заблокировал мистера Китинга, лишил доступа к сайту, потому что он создал инструмент который, как думали в компании, был предназначен для парсинга их сайта. Они ошиблись. Но тем не менее, Китинг так никогда и не смог восстановить свой аккаунт. К счастью, дальше это дело не зашло.
  • В деле LinkedIn Corporation против Robocog Inc. последняя (она же HiringSolved) была вынуждена заплатить Linkedin 40 тысяч долларов, потому что без разрешения парсила их сайт.

«Это абсолютно нечестно! Гугл краулит/парсит весь веб сколько существует!»

Верно. Но, видимо, право не имеет ничего общего с честностью. Оно основано на правилах, которые интерпретируют люди.

«Если на меня когда-нибудь подадут в суд, я сумею прекрасно защитить себя!»

Удачи! Круто, если вы знаете право и правовой язык на высоком уровне. Лично я – нет.

«Но я использовал автоматизированный скрипт, так что я не заключал никаких договоров с сайтом»

Это серая зона:

  • В деле Internet Archive против Сюзанны Шелл суд постановил, что Internet Archive виновен в нарушении договора, так как копировал и архивировал страницы с сайта миссис Шелл, используя краулеры. На своем сайте миссис Шелл выставила предупреждение, в котором говорится, что если вы копируете с сайта контент, то автоматически соглашаетесь с договором. По нему вы должны ей 5 тысяч долларов за каждую скопированную страницу (!!!). В этом деле стороны, по видимому, достигли мирового соглашения.
  • В деле Southwest Airlines Co. против BoardFirst, LLC суд признал BoardFirst виновными в нарушении лицензионного соглашения, которое было выложено на сайте Southwest Airlines. BoardFirst создали инструмент, который автоматически скачивал посадочные талоны клиентов Southwest Airlines, чтобы предложить места получше.«Условия обслуживания все равно не имеют силы. У них нет правового статуса».

Неверно. Юридическая фирма Bingham McCutchen LLP опубликовала довольно подробную статью на эту тему, и там говорится:

«Как и в случае с любым другим контрактом, по правилам, условия обслуживания сайта имеют силу, если обе стороны приняли условия. […] Неважно, нужно ли кликнуть, чтобы дать согласие, или условия обслуживания – лицензионное соглашение, выложенное на сайте. То, что ответчик не прочитал условия, никак не влияет, условия все равно имеют силу. Один суд не согласился с тем, что от стороны, которая использует краулинговые или парсинговые инструменты, нельзя требовать знания условий обслуживания соглашения с ними, не согласился, что эта сторона не могла знать о них. Также и другой суд решил, что ответчик – сторона, неоднократно использовавшая такие инструменты на определенном сайте, – знал об условиях обслуживания. Тем не менее, эти дела, опять таки, очень сильно зависят от фактов, и суды также, бывало, отклоняли прошение придать юридическую силу условиям обслуживания, когда истец не мог доказать, что ответчик точно знал или мог знать эти условия (т.к. условия были незаметными). Такое бывало даже в случаях, когда ответчик неоднократно использовал краулинговые и парсинговые инструменты на определенном сайте».

Другими словами, условия обслуживания будут иметь юридическую силу, если так постановит суд и если есть существенные доказательства того, что вы в курсе этих условий.

«Я ознакомился с robots.txt и краулил на разумной скорости, так что я не могу попасть в неприятности, правильно?»

Это серая зона.

Robots.txt определяется как «технологический инструмент, предназначенный для сдерживания нежелательного краулинга или парсинга». Но неважно, принимаете вы его во внимание или нет, вы все еще нарушаете условия обслуживания.

«Ладно, но это для личного использования. Только для моего личного исследования. Я не буду публиковать его или производный набор данных, и продавать тоже не буду. Так что все в порядке, так?»

Это серая зона. Условия обслуживания часто запрещают автоматический сбор данных – для любых целей.Обратимся к юридической фирме bingham McCutchen LLP: «Часто условия эксплуатации сайтов включают пункты, запрещающие доступ к сайту или его использование с помощью веб-краулеров, парсеров или других роботов – в том числе и для сбора данных, который является самоцелью. Суды постановили, что соглашения были нарушены использованием краулинговых или парсинговых инструментов».

«Но у сайта нет robots.txt. Так что, я могу делать, что хочу, верно?»

Неверно. Ваши руки все еще связаны условиями обслуживания, а контент все еще защищен авторским правом.

Учитывая все написанное выше, вы уже определенно можете понять, что должны быть особо осторожными с парсингом и веб-краулингом.

Вот несколько советов по поводу парсинга:

  • Если возможно, используйте API вместо того, чтобы парсить данные напрямую.
  • Не нарушайте условия обслуживания.
  • Не нарушайте правила robots.txt.
  • Устанавливайте разумное значение скорости краулинга, то есть не бомбардируйте сайт запросами. Не нарушайте установленные в robots.txt перерывы. Если таковых нет, используйте консервативное значение краулинга (1 запрос каждые 10-15 секунд).
  • Определяйте свой парсер допустимой строкой агента пользователя. Создайте страницу, которая объясняет, что вы делаете и почему, и добавьте ссылку на нее в свою строку агента пользователя (то есть, ‘MY-BOT (+https://имя-вашего-сайта.com/mybot.html)’).
  • Если условия обслуживании или robots.txt не дают вам провести краулинг или парсинг, возьмите письменное разрешение у владельца сайта перед тем как начать делать что-то еще.
  • Не публикуйте данные, которые краулили или парсили, также не публикуйте никаких производных наборов данных без сверки с лицензией на эти данные или без полученного письменного разрешения правообладателя.
  • Если вы сомневаетесь в законности того, что делаете – не делайте это. Или спросите совета у юриста.
  • Не основывайте весь свой бизнес на парсинге данных. Сайт(ы), с которых вы парсите данные, могут рано или поздно заблокировать вас, как это произошло в деле Craigslist Inc. против 3Taps Inc.
  • И в конце концов, вам нужно с подозрением относиться ко всем советам, которые вы находите в интернете (включая мои), так что, пожалуйста, проконсультируйтесь с юристом.

Помните, что компании и частные лица вольны подавать на вас в суд по любым причинам, какие только найдут. И, скорее всего, это будет не первым шагом, который они сделают. Если вы парсите или краулите их сайт без разрешения, если делаете что-то, что им не нравится, вы определенно ставите себя в уязвимую позицию.

Заключение

Как мы видим из этого поста, парсинг и краулинг не незаконны сами по себе. Они могут стать сомнительными, когда вы играете на чужой территории по своим собственным правилам, не получив разрешение заблаговременно. То же самое применимо и к реальной жизни, если так подумать. Есть много серых зон в правовом поле вокруг этой темы, так что исход довольно непредсказуем. Чтобы не попасть в неприятности, перед началом работы удостоверьтесь, что вы не нарушаете никаких правил. И, в конце концов, вопрос должен стоять не так: «Это законно?» Вместо этого спросите себя: «Делаю ли я что-то, что может расстроить кого-то? И хочу ли я рисковать (финансами), если этот кто-то среагирует?»