Попробуем рассмотреть один из лучших способов сбора информации в интернете –
парсинг – с
юридической точки зрения в России и в других странах. Эта
публикация касается некоторых юридических вопросов, связанных с парсингом сайтов, но не является полноценной
юридической консультацией.
Парсинг – это автоматизированный процесс извлечения данных с чужого веб-сайта (обычно с
Интернет-магазина). Но стоит разобраться, действительно ли это один из самых полезных
инструментов ИТ для
сбора данных или
ловушка, влекущая неизбежные
проблемы с законом? Предположим, вам нужно разместить тысячу карточек товаров в вашем новом интернет-магазине. Вам нужно собрать много информации, обработать, переписать и заполнить карточки. Для
решения таких задач, появились программы, сканирующие
сайты, результаты выдачи поисковых систем, и копирующие однотипные (
текст или картинки) либо универсальные (
текст и картинки) сведения. Они позволяют распознавать огромные объемы непрерывно обновляемых значений.
Парсинг мог бы непременно стать одним из совершеннейших способов добычи
контента по всей сети, но к нему прилагается оговорка: с этим инструментом очень сложно разобраться с
юридической стороны.
Парсинг – это процесс, посредством которого автоматизированная часть
программного обеспечения извлекает
данные веб-сайта, «прочесывая» многочисленные
страницы.
Поисковые системы как
Google и Яндекс делают нечто подобное, когда индексируют
веб-страницы, а парсинговые механизмы идут дальше и преобразовывают информацию в
формат, который позволяет этими данными пользоваться, заносить в базы или электронные
таблицы.
Парсинг – не то же самое, что получение данных
по API. Например,
компания может открыть доступ к
API, чтобы позволить другим системам взаимодействовать с ее данными; при этом качество и количество доступных данных через
API, как правило, ниже, чем можно получить, используя
парсинг. Кроме того,
парсинг предоставляет более актуальную информацию, чем через
API, и значительно проще настраивается со структурной точки зрения. Области применения «парсинговой» информации очень многочисленны. Спортивный журналист может использовать
парсинг, чтобы исследовать бейсбольную статистику для
статьи. Или, например, в
электронной коммерции можно извлекать наименования товаров и
цены на них из разных источников для последующего анализа (как пример в России — наш
сервис парсинга и
мониторинга цен конкурентов xmldatafeed.com). Но, хоть
парсинг и, несомненно, мощный
инструмент, когда дело касается правовых вопросов, могут появиться трудности. Поскольку в процессе
парсинга изначально существующий
контент из разных источников присваивается тем, кто этот
инструмент использует, появляются этические и юридические затруднения. [su_box title=»Парсинг сайтов» style=»soft» box_color=»#085fc8″] Планируете свой
бизнес и необходимы
данные? Регистрируйтесь
по ссылке
https://ru.xmldatafeed.com и пользуйтесь ежедневными итогами
парсинга крупнейших сайтов России! [/su_box] На сегодняшний день в среде
парсинга нет четко очерченных юридических рамок, это состояние постоянного движения, но можно попытаться приблизительно обрисовать зоны наибольшего риска. Ниже в общих чертах описываются самые яркие случаи судебных разбирательств, имевшие место в
США, и ставшие прецедентными.
2000-2009: eBay
После появления
парсинга юридических проблем не возникало довольно долгое
время. Но в 2000 году использование этого инструмента спровоцировало настоящее сражение – eBay выступил против
компании по сбору аукционных данных Bidder’s Edge.
Компания eBay обвиняла Bidder’s Edge в незаконном использовании извлечения данных, обращаясь к Доктрине о нарушении границ движимого имущества. Судья поддержал истца, заявив, что высокая
активность программ-роботов может подорвать работу eBay. Затем в 2003 году в судебном процессе Intel против Hamidi, Верховный
суд Калифорнии отклонил то обоснование, которое eBay использовала против Bidder’s Edge, постановив, что Доктрина о нарушении границ движимого имущества не может распространяться в компьютерной среде, если не было причинено настоящего ущерба личной собственности. Все самые ранние дела против
парсинга опирались на Доктрину о нарушении границ движимого имущества и заканчивались успехом истцов. Но этот подход больше не действенен.
2009: Facebook
В 2009 году
Facebook подал в
суд на Power.com –
сайт, который объединял различные
социальные сети в один централизованный ресурс, – когда последний включил
Facebook в свой
сервис. Поскольку Power.com парсил
контент Facebook, вместо того чтобы придерживаться установленных стандартов гиганта,
Facebook предъявил иск на основании нарушения авторского права.
Компания Facebook обвиняла Power.com в копировании веб-сайта
Facebook в процессе извлечения информации о пользователях.
Facebook утверждала, что этот процесс является прямым и косвенным нарушением авторского права.
Решение суда было в пользу
Facebook, и с этого времени
решения относительно законности
парсинга начали приниматься в пользу авторов содержимого сайтов. Даже если
парсер игнорирует контрафактный
контент в процессе поиска общедоступной информации, его действия могут характеризоваться как нарушение авторского права, потому что технически контрафактный
контент все равно «копируется».
2011-2014: Ауэрнхаймер
В 2010 году
хакер Эндрю Ауэрнхаймер нашел брешь в системе
безопасности на веб-сайте AT&T и извлек
адреса электронной почты пользователей, которые посещали
сайт со своих iPad. Воспользовавшись недостатком системы
безопасности и парсингом, Ауэрнхаймер смог получить доступ к тысячам электронных адресов с сайта AT&T. Ауэрнхаймер был признан виновным в несанкционированном доступе к серверу AT&T и присвоении чужих данных. Использование
парсинга для извлечения конфиденциальной личной информации может привести к обвинению, даже если эта
информация была номинально общедоступной. Можно попробовать убедить
суд, что ни
пароли, ни коды не взламывались для получения доступа к информации, тем не менее, это опасная территория.
2013: Meltwater
Meltwater – компания-разработчик
программного обеспечения, чей
продукт Global Media Monitoring, использует
парсинг для сбора новостей. Ассошиэйтед Пресс подала в
суд на Meltwater за
парсинг статей, некоторые из которых были защищены авторским правом, и за незаконное присвоение новостей. Факты нельзя защищать авторским правом, но
суд решил, что сами
статьи и авторское изложение фактов копировать незаконно. Кроме того, использование статей компанией Meltwater не соответствовало установленным стандартам. Авторский
контент не всегда можно
парсить!
2014: QVC
В 2014 году QVC (известный телевизионный
ритейлер) и Resultly (приложение-магазин) судились из-за того, что QVC назвал «чрезмерным парсингом». Обвинение QVC было в том, что Resultly маскировала своих поисковых роботов, чтобы скрыть исходный
IP-адрес, таким образом QVC не могли блокировать нежелательных для них парсеров. Из-за того, что
боты были достаточно агрессивны к серверам QVC, произошла перегрузка с отключением электричества, которое повлекло ущерб в 2 миллиона долларов.
Суд оправдал Resultly, постановив, что намерений нанести ущерб не было.
Разрешен (законен) ли парсинг сайтов в России?
Начнем с самого простого и распространенного вопроса — фотографирование ценников в магазинах, хотя это не имеет прямого
отношения к
парсингу сайтов, но проблематика схожая (действительно, кажется, что нет разницы фотографировать ценники в магазинах, либо
парсить цены с сайтов конкурентов). Итак, вопрос: Можно ли установить для покупателей правило, запрещающее проводить несанкционированную фото- и видеосъемку в магазине? Если не углубляться в детальное толкование закона, давайте посмотрим на самую важную статью об информации: В соответствии со статьей №5 Закона «ОБ ИНФОРМАЦИИ, ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ И О ЗАЩИТЕ ИНФОРМАЦИИ»: 1.
Информация может являться объектом публичных, гражданских и иных правовых отношений.
Информация может свободно использоваться любым лицом и передаваться одним лицом другому лицу, если федеральными законами не установлены ограничения доступа к информации либо иные требования к порядку ее предоставления или распространения. 2.
Информация в зависимости от
категории доступа к ней подразделяется на общедоступную информацию, а также на информацию, доступ к которой ограничен федеральными законами (
информация ограниченного доступа). 3.
Информация в зависимости от порядка ее предоставления или распространения подразделяется на:
- информацию, свободно распространяемую;
- информацию, предоставляемую по соглашению лиц, участвующих в соответствующих отношениях;
- информацию, которая в соответствии с федеральными законами подлежит предоставлению или распространению;
- информацию, распространение которой в Российской Федерации ограничивается или запрещается.
4. Законодательством Российской Федерации могут быть установлены виды информации в зависимости от ее содержания или обладателя. Таким образом,
информация о ценах в магазинах является общедоступной, т.к. нет законодательства ограничивающего доступ к такой информации. В связи с чем переписывать и снимать
цены в магазине
не запрещается. Действительно, нарушений закона нет. Более того, в статье 29 Конституции Российской Федерации закреплено право каждого гражданина «свободно искать, получать, передавать, производить и распространять информацию любым законным способом». Теперь
по парсингу сайтов и мониторингу цен (автоматизированному). Вопрос, который мы задали
юридической компании: «Может ли
организация осуществлять автоматизированный
сбор информации, размещенной в открытом доступе на сайтах в сети интернете (то есть
парсинг)?». Ответ следующий: В соответствии с действующим в Российской Федерации законодательством разрешено всё, что не запрещено законодательством.
Парсинг сайтов в сети
Интернет является законным, в том случае, если при его осуществлении не происходит нарушений установленных законодательством запретов. Таким образом, при автоматизированном сборе информации необходимо соблюдать действующее законодательство. Законодательством Российской Федерации установлены следующие ограничения, имеющие отношение к сети
интернет:
- Не допускается нарушение Авторских и смежных прав.
- Не допускается неправомерный доступ к охраняемой законом компьютерной информации.
- Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.
- Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).
- Не допускается использование гражданских прав в целях ограничения конкуренции.
Из вышеуказанных запретов следует, что
организация вправе осуществлять автоматизированный
сбор информации (то есть
парсинг сайтов), размещенной в открытом доступе на сайтах в сети
интернет если соблюдаются следующие условия:
- Информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах.
- Автоматизированный сбор осуществляется законными способами.
- Автоматизированный сбор информации не приводит к нарушению в работе сайтов в сети интернет.
- Автоматизированный сбор информации не приводит к ограничению конкуренции.
Есть
рекомендации, которых стоит придерживаться, если используется
парсинг:
- Извлекаемый контент не должен быть защищен авторским правом
- Процесс парсинга не должен мешать работе сайта, который подвергается парсингу
- Парсинг не должен нарушать условия использования сайта
- Парсер не должен извлекать личную (персональную) информацию пользователя
- Контент, который подвергается парсингу, должен отвечать стандартам правомерного использования
Самый «тонкий» момент — это
возможность претензий на то, что «парсинг мешает работе нашего сайта и мы несем убытки». В ответ на такую претензию можно сослаться на то, что поисковые механизмы
Google и Yandex занимаются парсингом (индексацией) всего сайта и собирают всю доступную информацию, делая это достаточно регулярно. Соответственно, звучит логично, что аналогичный
парсер, который заходит на
сайт компании, чтобы собрать информацию о ценах, выполняет тоже самое техническое
действие. Доказать то, что аналогичное
действие мешает работе сайта, а
работа поисковых систем не мешает, может быть затруднительно. Но в любом случае, хороший
парсер должен следовать правилам в robots.txt…