«Ой ладно, я столько сил приложил, работая над этим проектом! И это общедоступные данные! Определенно должна быть лазейка, так ведь? Или, выходит, я все это сделал зря… Ох…» Да, вот так я и говорил себе, когда понял, что мой амбициозный проект по анализу данных может принести мне неприятности. Я намеревался запустить поискового робота – парсера – который работал бы в крупных масштабах, чтобы собрать данные с множества крупных сайтов. А после этого я планировал опубликовать результаты своего анализа, чтобы принести всем пользу. Довольно благородно, правда? Да, но еще и довольно рискованно.
Примечательно, что в последнее время мне стало попадаться все больше и больше таких же проектов, как мой. И еще больше – руководств, которые подталкивают парсингу. Но что меня беспокоит, так это то, как ужасающе широко распространена безграмотность относительно правового аспекта в этом деле. В общем, вот о чем этот пост: о понимании возможных последствий веб-парсинга и веб-краулинга. Надеюсь, пост поможет вам избежать потенциальных проблем.
[su_box title=»Нужны данные для вашего бизнеса?» style=»default» box_color=»#085fc8″]Бесплатно регистрируйтесь на нашем портале https://ru.xmldatafeed.com и используйте ежедневные итоги парсинга крупнейших сайтов России (товары и услуги)!
[/su_box]Дисклеймер: я не юрист. Я просто программист, который, так уж получилось, заинтересовался этой темой. Вам стоит поискать соответствующие профессиональные советы, касающиеся вашей конкретной ситуации. И сказанное ниже в больше степени относится к Северной Америке.
Давайте для начала определимся с терминами, чтобы быть уверенными, что думаем об одном и том же. Парсинг – это процесс регулярного автоматического скачивания данных с веб-страницы и извлечение из нее конкретной информации. Извлеченная информация может храниться практически где угодно (в базе данных, файле и т.д.). Краулинг – это процесс автоматического скачивания данных с веб-страницы, извлечение гиперссылок, которые на ней есть, и переход по ним. Скачанные данные обычно хранятся в каталоге или в базе данных, чтобы можно было легко запустить поиск по ним.
Например, вы используете парсер, чтобы извлечь данные о прогнозе погоды с сайта Национальной метеорологической службы. Это позволит вам проанализировать их. С другой стороны, вы можете использовать краулер, чтобы скачать данные сразу со многих сайтов, и сделать поисковой движок. Может, вы уже слышали про Гуглбота (Googlebot), собственный веб-краулер Гугла. Выходит, по сути, парсеры и веб-краулеры используются в самых разных целях.
Репутация веб-парсинга была сильно подмочена в последние несколько лет, и это справедливо:
Куча людей и компаний используют свои собственные парсеры прямо сейчас. Их так много, что это уже стало головной болью компаний, чьи сайты парсят. Например, страдают социальные сети (типа Фейсбука, LinkedIn и т.д.) и онлайн-магазины (типа Амазона). Возможно, именно поэтому у Фейсбука есть отдельные правила для автоматического сбора данных.
С другой стороны, это исторический факт: краулинг использовался известными поисковыми движками (типа Гугла, Бинга и т.д.), чтобы скачивать и каталогизировать веб. За долгие годы эти компании заработали положительную репутацию, потому что они создали совершенно необходимые инструменты, которые сделали сайты, которые они краулят, более ценными. Так что, по сути, краулинг представляется в более выгодном свете, хотя им тоже иногда можно злоупотребить.
Парсинг и краулинг не незаконны сами по себе. В конце концов, вы можете парсить или краулить свой собственный сайт, вам никто не указ. Проблема возникает, когда вы парсите или краулите чей-то чужой сайт, не получив письменного разрешения или вопреки условиям обслуживания. По сути, вы сами ставите себя в уязвимую позицию.
Только подумайте об этом. Вы используете чужую пропускную способность, свободно получаете и используете чужие данные. Логично было бы решить, что владельцу данных это не понравится, потому что то, что вы делаете, может ему каким-нибудь образом навредить. Так что, в зависимости от многих факторов (и настроения владельца), он полностью вправе преследовать вас в судебном порядке.
Знаю, о чем вы сейчас подумали. «Ой да ладно! Это же смешно! С какой стати владелец будет подавать на меня в суд?». Конечно, он может вас просто проигнорировать. Или просто использовать свои технические возможности, чтобы заблокировать вас. Или просто прислать вам запретительное письмо. Но технически ничто не может помешать владельцу подать на вас в суд. Это реальная проблема.
Нужны доказательства? Дело LinkedIn против неизвестных ответчиков: LinkedIn подал в суд на примерно 1-100 человек, которые анонимно парсили сайт. И за что он подал в суд на всех этих людей? Давайте посмотрим:
Этот судебный процесс вызывает реальное беспокойство, потому что на самом деле неясно, что будет с теми «анонимными» людьми. Учтите: если на вас подадут в суд, вы не сможете просто отклонить иск. Вам нужно будет защищаться в суде, чтобы доказать, что вы не сделали ничего противоправного. И неважно, честно это или нет, действительно вы сделали что-то незаконное или нет.
Другая проблема состоит в том, что право – это скорее всего нечто, к чему вы непривычны. Потому что в то время как вы будете использовать логику, здравый смысл и техническую экспертизу, они будут использовать правовой язык и серую зону права, чтобы доказать, чтобы вы сделали что-то плохое. Это определенно не та ситуация, в которой приятно оказаться. Так что вам понадобится адвокат, и это может стоить вам кучу денег.
К тому же, если отталкиваться от судебного процесса LinkedIn, описанного выше, можно увидеть, что дела несомненно могут становиться довольно сложными и объемными, даже если вы «просто парсили сайт».
Я понял, что в целом люди стараются оправдать парсинг и краулинг, принижая их значимость. И у таких людей обычно одни и те же типичные аргументы, которые используются снова и снова. Давайте сделаем обзор самых распространенных.
Неверно. Проблема в том, что авторские права на «творческую расстановку» данных могут кому-то принадлежать, как описано на сайте cendi.gov: «Авторское право на факты не может кому-то принадлежать. Тем не менее, творческая выборка, координация и расстановка информации и материалов, которые формируют базу данных или компиляцию, могут быть защищены законом. Однако заметьте, что защита авторского права распространяется только на творческие аспекты, не на сами факты, которые хранятся в базе данных или компиляции».
Итак, сайт – включая его страницы, дизайн, планировку и базу данных – может быть защищен законом об авторском праве, потому что считается творческой работой. И если вы парсите этот сайт, чтобы извлечь информацию, то даже сам факт простого копирования и сохранения веб-страницы с помощью парсера может быть расценен как нарушение авторского права. В Соединенных Штатах авторская работа защищена Законом об авторском праве в цифровую эпоху.
Это серая зона:
Неверно. Условия обслуживания часто содержат пункты, которые запрещают краулинг/парсинг/харвестинг и вообще автоматическое использование сопутствующих услуг. Ваши руки связаны этими условиями. Неважно, что вы могли бы собрать данные вручную.
Это серая зона:
Верно. Но, видимо, право не имеет ничего общего с честностью. Оно основано на правилах, которые интерпретируют люди.
Удачи! Круто, если вы знаете право и правовой язык на высоком уровне. Лично я – нет.
Это серая зона:
Неверно. Юридическая фирма Bingham McCutchen LLP опубликовала довольно подробную статью на эту тему, и там говорится:
«Как и в случае с любым другим контрактом, по правилам, условия обслуживания сайта имеют силу, если обе стороны приняли условия. […] Неважно, нужно ли кликнуть, чтобы дать согласие, или условия обслуживания – лицензионное соглашение, выложенное на сайте. То, что ответчик не прочитал условия, никак не влияет, условия все равно имеют силу. Один суд не согласился с тем, что от стороны, которая использует краулинговые или парсинговые инструменты, нельзя требовать знания условий обслуживания соглашения с ними, не согласился, что эта сторона не могла знать о них. Также и другой суд решил, что ответчик – сторона, неоднократно использовавшая такие инструменты на определенном сайте, – знал об условиях обслуживания. Тем не менее, эти дела, опять таки, очень сильно зависят от фактов, и суды также, бывало, отклоняли прошение придать юридическую силу условиям обслуживания, когда истец не мог доказать, что ответчик точно знал или мог знать эти условия (т.к. условия были незаметными). Такое бывало даже в случаях, когда ответчик неоднократно использовал краулинговые и парсинговые инструменты на определенном сайте».
Другими словами, условия обслуживания будут иметь юридическую силу, если так постановит суд и если есть существенные доказательства того, что вы в курсе этих условий.
Это серая зона.
Robots.txt определяется как «технологический инструмент, предназначенный для сдерживания нежелательного краулинга или парсинга». Но неважно, принимаете вы его во внимание или нет, вы все еще нарушаете условия обслуживания.
Это серая зона. Условия обслуживания часто запрещают автоматический сбор данных – для любых целей.Обратимся к юридической фирме bingham McCutchen LLP: «Часто условия эксплуатации сайтов включают пункты, запрещающие доступ к сайту или его использование с помощью веб-краулеров, парсеров или других роботов – в том числе и для сбора данных, который является самоцелью. Суды постановили, что соглашения были нарушены использованием краулинговых или парсинговых инструментов».
Неверно. Ваши руки все еще связаны условиями обслуживания, а контент все еще защищен авторским правом.
Учитывая все написанное выше, вы уже определенно можете понять, что должны быть особо осторожными с парсингом и веб-краулингом.
Помните, что компании и частные лица вольны подавать на вас в суд по любым причинам, какие только найдут. И, скорее всего, это будет не первым шагом, который они сделают. Если вы парсите или краулите их сайт без разрешения, если делаете что-то, что им не нравится, вы определенно ставите себя в уязвимую позицию.
Как мы видим из этого поста, парсинг и краулинг не незаконны сами по себе. Они могут стать сомнительными, когда вы играете на чужой территории по своим собственным правилам, не получив разрешение заблаговременно. То же самое применимо и к реальной жизни, если так подумать. Есть много серых зон в правовом поле вокруг этой темы, так что исход довольно непредсказуем. Чтобы не попасть в неприятности, перед началом работы удостоверьтесь, что вы не нарушаете никаких правил. И, в конце концов, вопрос должен стоять не так: «Это законно?» Вместо этого спросите себя: «Делаю ли я что-то, что может расстроить кого-то? И хочу ли я рисковать (финансами), если этот кто-то среагирует?»
Введение: краткое резюме текущей ситуации и что ожидать от этого руководства Российский рынок криптовалют представляет…
Краткое саммари: ваш путеводитель по грантам ФСИ от идеи до реализации Получение государственного гранта для…
Краткое содержание Российский SaaS-бизнес, ориентированный на глобальный рынок, столкнулся с фундаментальной проблемой: принимать регулярные платежи…
Введение: «Сколково» — не территория, а идеология Инновационный центр «Сколково» часто воспринимается как географическая точка…
Краткое резюме: зачем вам нужен сервис аналитики и что вы найдете в этой статье Продажи…
Краткое резюме для руководителя В условиях современного цифрового рынка, где цены могут меняться несколько раз…