Как парсить данные о людях из социальной сети Фейсбук (Facebook)?

5 вещей, которые вам следует знать перед тем, как парсить данные с Facebook

Фактически Facebook запрещает любые парсеры

Перед тем, как приступить к парсингу сайта, вам в первую очередь необходимо проверить его файл robots.txt. Robots.txt — это файл, используемый веб-сайтами, чтобы сообщить «ботам», разрешено ли сканировать и индексировать данный сайт. Вы можете получить доступ к файлу, добавив “/robots.txt” в конце ссылки вашего целевого сайта. Введите https://www.facebook.com/robots.txt в своем браузере — и давайте проверим файл для ботов на Facebook. Эти две строки можно найти внизу файла. В данных строках говорится, что Facebook запрещает все автоматические парсеры. То есть ни одна часть сайта не должна посещаться автоматическим сканером.

Почему мы должны соблюдать robots.txt?

Веб-сайты используют данный файл, чтобы определить набор правил, по которым вам или боту следует с ними взаимодействовать. Когда веб-сайт блокирует доступ к парсерам, лучше всего оставить этот сайт в покое. Соблюдать рекомендации файла “robot.txt” означает избежать неэтичного сбора данных, а также любых юридических последствий.

Технически, единственный законный способ сбора данных с Facebook с помощью парсера — это получить предварительное письменное разрешение.

В самом начале своего файла для ботов Facebook предупреждает: «Сканирование Facebook запрещено, если у вас нет явного письменного разрешения». Перейдя по ссылке во второй строке, вы можете найти условия автоматического сбора данных Facebook, последний раз пересмотренные 15 апреля 2010 года.
Как любые другие положения и условия в этом мире, условия автоматического сбора данных Facebook огромны (написаны необычно маленькими буквами) и полны юридических терминов, которые мало кто полностью понимает.

Эти термины выглядят настолько знакомыми, что мы видим их каждый раз, когда устанавливаем новое приложение на свой мобильный телефон или регистрируемся на веб-сайте.

«Получив разрешение на… вы соглашаетесь соблюдать…»
«Вы соглашаетесь с тем, что не будете…»
«Вы соглашаетесь, что любое нарушение этих условий может привести к…»

Как гигант социальных сетей, Facebook имеет деньги, время и выделенную команду юристов. Если вы продолжаете парсить Facebook, игнорируя его условия автоматического сбора данных, это нормально, но имейте в виду, что он напомнил вам о необходимости, по крайней мере, получить «письменное разрешение». Иногда эта корпорация может быть довольно агрессивной по отношению к незаконному сбору данных.

Но, конечно, вы все еще можете парсить данные с Facebook, как вы пожелаете

Если вы парсили сайт, не соблюдая robots.txt, это еще не значит, что вы непременно столкнетесь с юридическими трудностями, потому что нарушили правила.
Данные, полученные из социальных сетей, несомненно, являются самым большим и наиболее динамичным набором данных о поведении человека и реальных событиях. Более десяти лет исследователи и бизнес-эксперты по всему миру собирают информацию из Facebook, с помощью фильтров получают типичные выборки для понимания отдельных лиц, групп и общества, а также исследуют новые возможности, скрытые в пользовательских данных. Пользователи согласны с тем, что данных социальной статистики это не всегда плохо. Например, именно использование социальных данных для персонализации маркетинга делает интернет бесплатным, а также делает рекламу и контент, которые мы видим, более актуальными.

Инструменты, которые вы можете использовать для получения данных из Facebook

В ответ на протест общественности после скандала с Cambridge Analytica, Facebook в апреле прошлого года ввел серьезные ограничения доступа к своим API.
Интерфейсы прикладного программирования (API — Application Programming Interfaces) — это программные интерфейсы, разработанные для использования компьютерными программами, которые позволяют людям получать крупномасштабные данные с помощью автоматизированного процесса. В настоящее время многие компании предоставляют общедоступный API-интерфейс для доступа пользователей, исследователей и сторонних разработчиков приложений к своей инфраструктуре.

Блокировка API Facebook и радикальные ограничения доступа к данным, как попытка защитить пользовательскую информацию, довольно спорны. Но, тем не менее, в результате у людей остается только один выбор. Без API мы можем получать данные из Facebook только через пользовательские интерфейсы, то есть веб-страницы. Это как раз тот случай, когда парсеры вступают в игру. Мы написали блог о нескольких лучших инструментах для парсинга в социальных сетях. 👉 Предлагаем ознакомится с нашей статьей 5 лучших инструментов для парсинга в социальных сетях на 2018 год.

Однако после вступления в силу GDPR у вас больше шансов получить иск, если вы пытаетесь парсить личные данные

Общее постановление ЕС о защите данных, или, как оно более широко известно, GDPR, вступило в силу 25 мая 2018 года. Говорят, что это самое важное изменение в регулировании конфиденциальности данных за последние 20 лет, которое должно привести к радикальным изменениям во всем, начиная от технологий до рекламы, и от медицины банковского дела. Компании или организации, которые хранят и обрабатывают большие объемы данных о потребителях, например, технологические фирмы, такие как Facebook, больше всего страдают от GDPR. Раньше все эти компании следили за соблюдением правил защиты пользовательских данных самостоятельно. Теперь в рамках GDPR они должны убедиться, что они полностью соблюдают закон.

Хорошие новости в том, что:
…GDPR распространяется только на личные данные.

Здесь “личные данные” относятся к данным, которые могут быть использованы для прямой или косвенной идентификации конкретного лица. Данный вид информации более известен как личная информация, которая включает в себя имя человека, физический адрес, адрес электронной почты, номер телефона, IP-адрес, дату рождения, информацию о занятости и даже видео / аудио записи. Если вы не парсите личные данные, то GDPR на вас не распространяется.
Короче говоря, если у вас нет явного согласия человека, то в настоящее время в рамках GDPR незаконно парсить личные данные резидента ЕС.

Вы можете попробовать альтернативные источники Facebook для вашего аналитического проекта

Как упомянуто выше, хотя Facebook запрещает все автоматизированные сканеры, технически все же возможно захватить данные с сайта. Проблема в том, что —
это рискованно. Помимо правовых последствий, вы также можете обнаружить, что получение данных на регулярной основе может стать сложнее, поскольку Facebook блокирует подозрительные IP-адреса — и даже может в будущем внедрить более жесткие механизмы блокировки, что сделает невозможным парсинг данных с сайта. Следовательно, рекомендуется искать более надежные источники данных социальной статистики для получения бизнес-аналитики и понимание вашего целевого рынка.

Четыре источника данных, альтернативных Facebook

Twitter – Ежедневно генерируется около 500 миллионов твитов, а Twitter представляет собой море информации, которую можно использовать как отличный источник для мониторинга бренда и оценки настроений клиентов. В отличие от Facebook, Twitter позволяет людям получать данные в больших масштабах через API-интерфейсы Twitter.

Reddit- Имея столько же пользователей, сколько и Twitter, Reddit является одним из крупнейших источников UGC (пользовательского контента) в мире. Reddit предоставляет общедоступные API-интерфейсы, которые можно использовать для различных целей, таких как сбор данных, автоматические комментарии или даже для помощи в модерации subreddit.

ВКонтакте (ВК)- VK — российская социальная медиа-платформа, ориентированная на россиян и других восточноевропейских пользователей. Безусловно, он может похвастаться более чем 90 миллионами уникальных посетителей в месяц и 9 миллиардами просмотров страниц каждый день. Как российская компания, VK придерживается российского законодательства, и, если вы проверите файл для поисковых роботов, то обнаружите, что он довольно дружелюбен к парсерам.

Instagram – Instagram, принадлежащий Facebook, больше фокусируется на обмене визуальным контентом, особенно видео и фотографиями. Платформа используется многими брендами, чтобы очеловечить контент для улучшения связи с клиентами и повышения узнаваемости бренда. Однако, помимо блокировки данных Facebook в прошлом году, Instagram также ввел радикальные ограничения доступа к данным, что сделало сайт намного менее надежным, чем раньше.