CoderCastrov logo
CoderCastrov
Парсер

Анти-парсинг - почему вы уже проиграли войну

Анти-парсинг - почему вы уже проиграли войну
просмотров
4 мин чтение
#Парсер

Сегодня мы говорим о проблеме анти-парсинга.

Парсинг веб-сайтов продолжает быть актуальной темой: сайты, предлагающие "бесплатный" контент, защищаются, гроу-хакеры собирают данные для создания списков потенциальных клиентов, а крупные компании парсят друг друга.

Что такое парсинг?

Парсинг - это техника извлечения данных с веб-сайта: вы создаете робота, который программно собирает информацию, без необходимости вмешательства с вашей стороны.

Сегодня мы говорим о парсинге в маркетинговых службах стартапов с невероятным ростом гроу-хакинга за последние несколько лет.

Поймите, что все собирают данные, в том числе:

  • Стартап, который хочет обогатить свою базу данных
  • Компания, которая хочет отслеживать своих конкурентов
  • Корпорация, которая проводит анализ рынка проникновения
  • Малое предприятие, которое продает продукт мониторинга

Проблема в том, что более 99% веб-сайтов не предоставляют прямого доступа к своим данным: они не предлагают API. Еще хуже, некоторые сайты предлагают API, но они так плохо спроектированы, что нам приходится парсить все для получения информации.

Статус парсинга и хакинга

В Captain Data часто говорят о законности, о GDPR или о технической осуществимости:

  • Что касается законности, это требует отдельной статьи! Вкратце: да, это законно (или по крайней мере, не является незаконным), но нельзя делать все, что угодно.
  • В отношении GDPR, нет видимых проблем, поскольку мы обрабатываем только деловые данные.
  • Интересный момент касается технической осуществимости: существует все больше сервисов или решений для парсинга, и, следовательно, все больше решений для защиты от него.

Мы часто проводим параллели между хакингом и парсингом: в конечном счете, это только вопрос средств.

Анти-Парсинг: вопрос средств?

Когда мы изучаем основы информационной безопасности, нам говорят, что нет никакой идеальной системы.

Чем больше вы вкладываете в решения, тем больше шансов быть защищенным (при условии, что ваши сотрудники не оставляют свои пароли на записках!).

То же самое относится и к парсингу: чем больше вы платите за защиту, тем больше шансов обнаружить роботов. Все сводится к управлению риском: какой процент вы готовы пропустить?

Если некоторые меры безопасности кажутся действительно неприступными с точки зрения хакинга, мы всегда смогли обойти их с помощью наших парсеров.

Технологии защиты в основном основаны на двух факторах:

  • Цифровой отпечаток
  • Машинное обучение и статистика

Отпечаток пальца

Когда вы сидите в интернете, вы оставляете то, что называется отпечатком пальца. Это набор параметров, которые накапливаются со временем: файлы cookie, ваш IP-адрес, настройки вашего браузера и т. д.

Это позволяет частично определить, являетесь ли вы человеком за экраном или роботом. Плохая новость заключается в том, что современные технологии, в частности Headless Chrome (то есть упрощенная версия браузера Chrome), делают воспроизведение этих параметров крайне простым.

По сути, робот может легко притвориться человеком.

Машинное обучение

Машинное обучение (англ. Machine Learning) позволяет создавать высококачественные решения для противодействия парсингу. В основе этого лежит сбор данных (больших данных), чтобы создать модели поведения и обнаружения.

Статистический анализ, такой как количество IP-адресов, количество сеансов по IP-адресам, скорость извлечения и т. д., делает парсинг гораздо сложнее.

Кроме того, существует немного решений для парсинга, основанных на машинном обучении.

"К счастью", как и в области хакинга, внедрение технических решений основано на экспертизе людей и, следовательно, подвержено ошибкам. Часто достаточно небольшой детали: страница не защищена должным образом, внутренний API просачивается и т. д. И это открывает дверь.


Экспертиза, которую мы приносим в разработку сложных парсеров, заключается именно в обнаружении этих недостатков.

В общем, можно подумать, что компания, которая тратит больше всего, будет иметь последнее слово. В теории это верно. Однако практика показывает, что ни одна защита не является неприступной.

Парсинг как инновационный инструмент

Обратите внимание, мы не говорим, что вам не нужно защищать свои данные: это как с антибиотиками, они необходимы не всегда. Продукт, такой как Cloudflare, предоставляет множество преимуществ и не является только защитой от парсинга.

В общем, у нас просто другое видение Интернета 🙂

В Captain Data мы видим парсинг как инновационный инструмент:

  • Он позволяет обогащать базы данных и максимизировать их стоимость.
  • Вы можете создавать новые способы ведения бизнеса и привлечения клиентов.
  • Он упрощает создание инновационных продуктов.
  • И, наконец, он позволяет модернизировать старые приложения.

Вместо того, чтобы пытаться защитить свои данные, вам следует задуматься о том, как их использовать.

У вас нет API? Создайте его!

Не знаете, как это сделать? Мы можем помочь вам.

Создание API слишком дорого? Попросите нас спарсить ваше приложение, чтобы создать API на лету и плавно перейти к обновленной инфраструктуре с минимальными затратами.

Вы читаете это повсюду: "данные - это новая нефть".

Чего вы ждете, чтобы приступить к этому?


Опубликовано на captaindata.co 27 сентября 2018 года.