CoderCastrov logo
CoderCastrov
Парсер

Является ли поисковая система на сайте самым коротким путем для парсеров?

Является ли поисковая система на сайте самым коротким путем для парсеров?
просмотров
3 мин чтение
#Парсер
Table Of Content

    Поиск на сайте упрощает нахождение нужной информации онлайн, и то же самое справедливо и для плохих парсеров. Вот почему страницы с результатами поиска на онлайн-ресурсах, таких как интернет-магазины, медиа-сайты и объявления (включая недвижимость), являются одними из самых целевых для парсеров. Парсинг страниц с результатами поиска позволяет парсерам легко находить и парсить списки товаров, SKU или идентификаторы ссылок, например.

    Индустрии розничной торговли, медиа-сайтов и порталов объявлений, включая недвижимость, являются одними из самых целевых для парсеров, осуществляющих парсинг, атаки на аккаунты, спам форм и комментариев, мошенничество с кредитными картами и другие вредоносные действия. Анализ трафика парсеров на страницах с результатами поиска показывает, что почти 32% трафика на этих конкретных страницах на сайтах электронной коммерции составляют парсеры, в то время как на медиа-сайтах и издательствах присутствие парсеров составляет около 28%, а на сайтах объявлений примерно 24% трафика на страницах с результатами поиска приходит от парсеров.

    Парсеры обычно многократно вызывают URL целевой страницы с результатами поиска с различными идентификаторами элементов, чтобы непрерывно обновлять свою базу данных, парся содержимое этих страниц. Например, если вы видите огромный всплеск тысяч запросов в определенный промежуток времени, это может указывать на парсеры, атакующие ту же секцию с разными идентификаторами элементов, чтобы извлечь цены тысяч товаров. Эти парсеры в основном развертываются из центров обработки данных, используют несколько User Agent'ов, чтобы попытаться избежать обнаружения, и обычно делают запросы периодически, с фиксированным или инкрементным количеством запросов на страницы с результатами поиска.

    Доказательством парсинга цен является регулярный трафик парсеров на URL списка товаров и изменение цен на других розничных сайтах вскоре после обновления цен на целевом сайте. Совершенствование защиты от парсеров является необходимым для защиты страниц с результатами поиска, поскольку они могут раскрывать маркетинговые и ценовые стратегии недобросовестным конкурентам и новичкам, пытающимся быстро заработать, парся ценную информацию.

    Вот почему ShieldSquare предоставляет опцию "Feed Fake Data" при обнаружении парсера. Например, предположим, что намерением парсеров, посещающих страницу с результатами поиска, является парсинг цен или информации о товаре, интернет-ритейлер может изменить ситуацию и предоставить поддельные данные о ценах, чтобы ввести их в заблуждение. Наши клиенты могут применять свою собственную логику в своем экземпляре ShieldSquare для подачи поддельных данных парсерам, например, реализовать скрипт для повышения цен на 20%.

    Прежде чем внедрять пользовательские ответы, такие как подача поддельных данных, важно знать, является ли парсер сравнительным сайтом цен, партнерским парсером или парсером конкурента. Возможность отправлять несколько типов пользовательских ответов на основе сигнатур парсеров помогает правильно справляться с ними. Вы также можете попросить своих партнерских парсеров объявить себя соответствующим образом в своих User Agent'ах или реализовать механизм рукопожатия для их проверки.

    Безусловно, совершенствование защиты от парсеров является критически важным для таких отраслей, как указанные здесь, поскольку они имеют наибольшие потери от парсеров. Поэтому традиционные наборы правил, черные списки IP и другие устаревшие методы неэффективны по сравнению с технологиями, такими как Intent-based Deep Behavior Analysis (IDBA) от ShieldSquare, которая использует искусственный интеллект и машинное обучение для определения намерений посетителей. Захват намерений позволяет IDBA обеспечивать значительно более высокий уровень точности при обнаружении сложных парсеров, похожих на людей.

    Опубликовано на https://www.shieldsquare.com 3 августа 2018 года.