Octolooks Scrapes - один из самых продвинутых плагинов для парсинга WordPress на рынке. Если у вас нет представления о том, где использовать плагин для парсинга или у вас есть некоторые опасения, пожалуйста, ознакомьтесь с нашей предыдущей статьей, перейдя по ссылке здесь.

Благодаря его богатым функциям вы можете легко получить одиночные или множественные записи. Вы можете создавать обычные блог-записи или пользовательские записи для ваших плагинов/тем, создавать категории, теги, загружать изображения, изменять контент с помощью регулярных выражений. Вы даже можете переводить контент с помощью сторонних сервисов, таких как Google, Bing, и спинить контент с помощью The Best Spinner.

Поэтому мы решили написать эту статью, чтобы дать вам базовое представление о нашем плагине для парсинга WordPress и о том, как вы можете начать работу с ним легко.

Теперь давайте начнем с возможностей плагина и краткого обзора разделов.

Панель управления

Левое меню содержит три пункта. Все парсинги перечисляет все задачи, которые вы создали в плагине. Ссылка Добавить новый создает новую задачу. Наконец, Настройки содержат ваши учетные данные, а именно URL вашего веб-сайта и лицензионный ключ.

Создание новой задачи

Первая и, возможно, самая простая часть - найти подходящее имя для нашей задачи. Мы предлагаем вам изменить имя по умолчанию Scrapes-163... на более понятное. Это может быть имя вида "имя источника - тип задачи", чтобы понять в будущем. Например, если вы будете получать информацию о криптовалюте Ethereum, имя может быть "Coinmarketcap - Ethereum - Одиночный". Таким образом, вы гарантируете понимание того, какую информацию этот парсер собирает и откуда он это делает в будущем.

Типы задач

Как вы видите, есть три варианта типов задач: single, serial и feed. Подробное объяснение этих типов приведено в разделе наших учебных пособий здесь.

1) Single

Основная идея заключается в том, что если вам нужна только одна информация с одного URL-адреса, то вы должны выбрать single. Информация извлекается из исходного URL-адреса, и в конце у вас будет одна запись. В зависимости от вашего выбора может быть создана новая запись или обновлена существующая запись.

Хорошим примером для одиночного парсинга является получение значения доллара США для Ethereum с https://coinmarketcap.com/currencies/ethereum/ каждые 5 минут. Здесь есть один URL-адрес, одна запись в конце, и процесс обновления повторяется.

2) Serial

Если вы хотите, чтобы несколько записей начинались с одного URL-адреса и затем переходили на следующие страницы, вам следует выбрать serial. Хорошим примером является получение нескольких статей, извлечение объявлений о вакансиях, сбор данных о гостиницах со страниц категорий. Основная идея заключается в том, что если вам нужно получить несколько записей с исходного URL-адреса, выбирайте серийный парсинг.

3) Feed

Последний тип задачи - это feed. Фиды являются особым типом серийного парсинга. Вместо того, чтобы писать обычную веб-страницу HTML, вам нужно ввести URL-адреса RSS или Atom-фида. Они являются особым типом ссылки XML. В чем же разница? Вот два примера с Techcrunch.

Основная ссылка на веб-сайт: https://techcrunch.com/

Ссылка на фид: https://techcrunch.com/feed

Скриншот обычной ссылки:

Скриншот ссылки на фид: он выглядит как машинный код, а не красиво отображаемая веб-страница с ссылками, изображениями и т.д.

Раздел Запросов

В зависимости от вашего выбора, внешний вид этого раздела меняется, но вот наиболее часто встречающиеся варианты, которые вы можете увидеть, когда выбираете тип задачи "последовательный парсинг".

Cookies

Они необходимы, если вы хотите получить данные с веб-сайта, требующего авторизации. Если на вашем исходном веб-сайте при входе в систему установлена опция "Запомнить меня", информация для входа сохраняется в браузере в виде зашифрованного файла cookie.

Иногда также может потребоваться принятие всплывающих предупреждений, таких как GDPR, проверка возраста или некоторая другая информация о сеансе. К сожалению, нет гарантированного способа узнать, какое значение cookie используется для чего, но вы можете попробовать скопировать/вставить все и уменьшать их по одному.

В вашем браузере перейдите в Инструменты разработчика, вкладку Приложение и выберите Cookies слева. Щелкните Domain, чтобы отсортировать по имени домена. Многие веб-сайты используют Google Analytics, кнопки входа в Facebook и т. д., поэтому вы также увидите эти файлы cookie во вкладке Cookies на их доменных именах. Но полезными являются файлы cookie с тем же доменным именем, что и наш исходный веб-сайт.

Если вы хотите отправить информацию о cookie nonce, раздел cookie должен выглядеть следующим образом после копирования и вставки пары имя-значение из нашего браузера.

Вы можете добавить столько файлов cookie, сколько вам нужно, нажав кнопку Добавить новый файл cookie.

URL источника

Это URL источника, который вы хотите спарсить. Как в нашем примере TechCrunch

Элемент сообщения

Для типа последовательного парсинга, чтобы определить ссылки на страницы с подробной информацией, вам нужно выбрать его с помощью нашего визуального селектора. Просто щелкните синюю прицельную метку справа и выберите URL сообщения, как можно более узким образом.

Шаг 1: Щелкните синюю прицельную метку.

Шаг 2: Выберите URL сообщения, если вы наведетесь на него правильно, вы увидите фактический URL в нижнем левом углу браузера, например, https://techcrunch.com/2021/08/27/stipop-sticker-library

В режиме единичного парсинга и режиме ленты вам не понадобится выбирать элемент сообщения, потому что единичный парсинг просто получает информацию с URL источника, а тип ленты автоматически обнаруживает ссылку в формате XML.

Последний параметр - "точное совпадение". Он нужен только для некоторых веб-сайтов. К сожалению, не каждая веб-страница имеет допустимую структуру HTML, или некоторые имеют очень старые таблицы, поэтому выбранный элемент невозможно обнаружить/разобрать в исходном HTML с помощью класса DOMDocument PHP. В этом случае вы можете ввести пользовательское значение XPath, чтобы сопоставить все элементы ссылок. Для очень подробного объяснения того, что такое XPath и как его можно написать самостоятельно, пожалуйста, ознакомьтесь с нашим подробным руководством здесь.

Следующая страница

В Scrapes есть только два варианта для этого поля. Выберите из источника и введите параметр URL. В большинстве случаев вы будете использовать выбор из источника и щелкать по синей прицельной метке.

Обычно на веб-сайтах есть тексты типа >, Следующая страница, Далее, Загрузить еще, чтобы отличить ссылки на следующие страницы. Techcrunch - один из них. Легко навести курсор на селектор следующей страницы, как на этом скриншоте.

Однако некоторые веб-сайты имеют пагинацию с помощью формы отправки или вместо > или Следующая, они просто показывают числа от 1 до 10, когда вы нажимаете на 10, они показывают 2-11 и т. д. В этом случае вы можете вручную определить параметр следующей страницы, чтобы легко пройти по диапазону чисел.

Параметр страницы начинается с заданного значения и увеличивается, например, http://example/products?page=1 - это целевой веб-сайт, если вы установите

Имя: page, Значение: 1, Инкремент: 1

для полей, он будет проверять их один за другим. http://example/products?page=1 http://example/products?page=2 http://example/products?page=3

Таким образом, вам нужно сначала найти параметр страницы в URL, обычно установить значение 1 и инкремент 1, чтобы он проходил по 1,2,3,4,5

Иногда пагинация в URL может появляться в виде количества элементов, например

http://example/products?products=20 http://example/products?products=40 http://example/products?products=60

Тогда вам нужно установить значение 20 и инкремент 20, чтобы он проходил по 20,40,60

Нет четкого правила для параметров, даже на разных языках параметр Имя может легко измениться. Вам нужно переходить на следующие страницы в своем браузере и проверять ссылки, если вам повезет, вы можете найти шаблон и определить его в этом разделе.

Это конец нашей статьи, поэтому вы можете легко выбрать тип задачи, проверить, нужна ли вам информация для входа в систему, скопировать и вставить значения файлов cookie при необходимости и перебирать страницы с помощью визуального селектора или типа параметра.

В следующей статье мы рассмотрим другие разделы, такие как сообщения/пользовательские сообщения, таксономии, шаблоны, правила поиска и замены, изображения, теги и т. д.

Если вы хотите узнать больше и увидеть Octolooks Scrapes в действии, пожалуйста, посмотрите наши обучающие видео на YouTube ниже:

И попробуйте нашу демонстрацию вживую, если у вас возникнут дополнительные вопросы, не стесняйтесь обращаться к нам.

Octolooks Scrapes - Демо

Изменить описание

scrapes.octolooks.com

Краткое руководство по Octolooks Scrapes