CoderCastrov logo
CoderCastrov
Парсер Google

Как парсить данные о продуктах с Google Shopping

Как парсить данные о продуктах с Google Shopping
просмотров
4 мин чтение
#Парсер Google

Google предоставляет огромное количество данных для внешних источников, многие из которых очень полезны, если их можно использовать и правильно форматировать для предполагаемого использования. В этом руководстве будет рассмотрено использование Google Product Results API от SerpAPI для парсинга Google Shopping, конкретно для парсинга страницы продукта Google. SerpAPI - это API поиска Google, которое позволяет пользователям парсить результаты поиска Google. Пользователям понадобится это API, чтобы парсить Google для получения цены, описания, отзывов, названия продукта, сравнения цен с другими онлайн-магазинами и других предложений по продукту.

В нашем руководстве мы будем использовать продукт "DeWalt DCD771C2".

Важно отметить, что у SerpAPI есть два API, которые работают с покупками и продуктами: 1) Google Shopping Results API и 2) Google Product Results API.

Google Shopping Results API vs Google Product Results API

Оба API предназначены для парсинга данных о покупках/продуктах с Google, но каждый из них имеет свое особое назначение. API Google Shopping Results используется для парсинга результатов поиска, возвращаемых при запросе Google Shopping. Вы можете фильтровать результаты по цене, продавцу и другим параметрам и особенностям, уникальным для категории этого продукта, в зависимости от того, признает ли Google эти параметры или нет. Используя наш пример продукта, упомянутый выше сверловки DeWalt, некоторые уникальные возвращаемые параметры включают функции аккумулятора, вес, размер патрона сверловки, тип питания (аккумуляторный или сетевой) и т. д. Очевидно, что эти параметры будут меняться в зависимости от типа продукта, который вы ищете.

Google Shopping SERP results for DeWalt DCD771C2

API Google Product Results позволит вам парсить данные, возвращаемые с уникальной страницы продукта на Google. Каждый блок продукта в результате поиска Google Shopping направляет пользователя на страницу этого продукта.

Что такое страницы продуктов Google?

Страница продукта Google - это производная от платформы Google Shopping, где каждый продукт имеет уникальную страницу с несколькими идентифицирующими свойствами. Лучший способ представить себе страницу продукта - это рассматривать ее как посадочную страницу для конкретного продукта. На странице продукта может содержаться название продукта, цена, рейтинг, отзывы, описание, спецификации, особенности, цены из других интернет-магазинов, другие продукты от этого производителя и похожие продукты от конкурирующих производителей. Каждый продукт в списке идентифицируется уникальным номером id.

Google Product Page for DeWalt DCD771C2

Страницы продуктов Google можно получить, перейдя непосредственно на страницу этого продукта или по ссылке из результатов поиска Google Shopping при поиске этого продукта.

Начните на странице Google Shopping, введите запрос "DeWalt DCD771C2". Первый результат на странице - это то, на что мы сосредоточимся. Когда вы нажимаете на заголовок, блок с результатами продукта разворачивается, чтобы показать больше деталей о продукте. Внизу блока продукта есть две ссылки, на которые стоит обратить внимание - "Связанные товары" и "Отзывы" - они приведут вас на уникальную отдельную страницу этого продукта, как показано выше.

Google Shopping result expanded

Скриншот из нашей документации иллюстрирует разборчивые части страниц продуктов. Полный разбор страницы, список всех доступных параметров, а также то, как выглядят данные при возврате в формате JSON, можно найти здесь.

Screenshot

Мы собираемся использовать нашу площадку для имитации поиска. Площадка вернет ссылку на полученные данные в форматах HTML и JSON. Для тех, кто не использовал нашу площадку, это панель инструментов, которая предоставляет быстрый и простой способ использования наших API и соответствующих параметров. Перейдите на площадку и убедитесь, что вы установили тип поиска в левом верхнем углу на Google Product.

Google Product API Playground

Следующий параметр, который нужно рассмотреть, это поле поиска идентификатора продукта (product_id). Это поле идентифицирует продукт, который будет запрашиваться, и принимает только уникальный идентификатор продукта, присвоенный Google. Этот номер находится в URL-адресе страницы продукта, сразу после product/, в данном случае это 2478210754218635618.

Google Product ID for DeWalt DCD771C2

После установки всех параметров нажмите "Поиск". Вы заметите, что API вернул два визуальных результата на странице - результаты в формате HTML и JSON. Доступ к ссылкам, предоставляющим эти результаты, можно получить, нажав кнопку "Экспорт в код" в правом верхнем углу. В выпадающем окне будет предоставлена ссылка на HTML и JSON URL, а также версия кода параметров вашего запроса на восьми различных языках/средах.

Google Product results links/code

Вы можете перейти к полученным данным, следуя ссылкам HTML или JSON. Вот ссылки на только что полученные данные:

JSON - https://serpapi.com/search.json?engine=google_product&product_id=2478210754218635618&google_domain=google.com&gl=us

HTML - https://serpapi.com/search.html?engine=google_product&product_id=2478210754218635618&google_domain=google.com&gl=us

Вот и все - мы только что использовали Google Product API от SerpAPI. Возможности и применение этого инструмента бесконечны.