CoderCastrov logo
CoderCastrov
Парсер веб-страниц

Парсинг с помощью Postman: Как это сделать

Парсинг с помощью Postman: Как это сделать
просмотров
6 мин чтение
#Парсер веб-страниц

Привет, меня зовут Винсент, и я работаю в компании, выпускающей ScrapingBot. ScrapingBot - это веб-скрапинг API в виде сервиса. Нас часто контактируют люди с небольшим или без опыта программирования, которым нужен парсинг, и просят нашей помощи. Поэтому я решил опубликовать ту же статью, которую мы разместили на нашем сайте, здесь, чтобы достичь более широкой аудитории и, надеюсь, помочь некоторым людям удовлетворить свою потребность в парсинге с помощью Postman.

В этой статье я покажу примеры, используя ScrapingBot, но вы, конечно же, можете использовать любой другой сервис для парсинга API.

Что такое Postman?

Postman - это программное обеспечение, которое вы можете скачать и использовать бесплатно. Вы можете найти его здесь.

На самом деле, его очень легко настроить. Мы проведем вас через шаги настройки Postman для использования с ScrapingBot. Он может использоваться разными способами. В этой статье мы сосредоточимся на основных функциях, которые он предлагает: выполнение API-запросов. Просто следуйте инструкциям ниже и посмотрите, как вы можете выполнить парсинг с помощью Postman.

Как использовать Postman с Scrapingbot?

Прежде всего, вам нужно создать бесплатную учетную запись на ScrapingBot: здесь. Вот как должен выглядеть Postman после его установки. Чтобы начать, просто нажмите на "Создать запрос".

Postman default screen after install

Теперь, используя документацию ScrapingBot, мы заполним различные элементы, необходимые для выполнения API-вызовов к ScrapingBot.

Сначала нам нужно настроить учетные данные. Нажмите на вкладку "Authorization" и в разделе "Type" выберите "Basic auth".

Postman adding your credentials

На этой вкладке "Username" будет вашим именем пользователя ScrapingBot, а "Password" - вашим API-ключом (вы можете найти свой API-ключ на вашей панели инструментов).

Теперь для этой статьи мы сначала рассмотрим базовый пример использования, пытаясь получить HTML-контент страницы.

Сначала вам нужно установить тип запроса на POST (нажмите на "GET" и появится выпадающий список для выбора "POST"). Затем добавьте URL нашего конечной точки "raw-html" следующим образом.

http://api.scraping-bot.io/scrape/raw-html

Postman first POST request with url

Теперь последний шаг перед отправкой API-запроса. Нам нужно настроить тело нашего запроса, чтобы предоставить API информацию, необходимую для выполнения парсинга.

В Postman нажмите на вкладку "Body", выберите "raw", а затем нажмите на "Text", чтобы выбрать "JSON". Мы выбираем JSON, так как это тип данных, который мы отправляем в API, и это также помогает с читаемостью.

И, наконец, мы добавляем JSON, содержащий параметр "url", который сообщает API, с какой страницы нужно извлечь данные. В нашем примере это страница товара Amazon, но это может быть любая общедоступная страница.

{"url":"https://www.amazon.com/dp/B00FLYWNYQ/"}

Postman first POST request with body

Теперь вы можете нажать на "Send", и через некоторое время вы получите ответ от API в разделе запроса на экране.

В нашем примере, так как мы запросили raw-html, результатом будет текст, содержащий весь HTML-контент этой страницы.

Postman first POST request with API response

Вот и все! Вот как вы можете легко выполнять парсинг с помощью Postman. Вы выполнили свой первый парсинг, используя ScrapingBot, и не пришлось писать ни одной строки кода.

В конечном итоге вы можете сохранить только что созданный запрос в Postman, чтобы использовать его позже. Для этого просто нажмите кнопку "Save". Откроется всплывающее окно, где вы можете дать имя своему запросу и добавить его в коллекцию (коллекция - это просто группа запросов, например, для одного и того же сайта, здесь вы можете создать коллекцию ScrapingBot, например). Затем просто нажмите "Save" внизу.

Postman Save your request

Теперь вы готовы добавлять больше запросов для других веб-сайтов или использовать наши другие конечные точки.

Давайте рассмотрим более продвинутую версию запроса, используя различные опции, которые мы предлагаем при вызове API. Это позволит вам выполнять парсинг с помощью Postman для большего разнообразия веб-сайтов.

Более продвинутый запрос с вариантами API

Добавление вариантов к вашему запросу не требует много изменений. Нам просто нужно изменить JSON-тело, чтобы передать эти варианты в API.

Различные варианты

В приведенном ниже примере мы добавили 3 основных варианта, которые вам могут понадобиться (все эти варианты подробно объясняются на странице документации):

proxyCountry: позволяет установить страну, из которой будет выполнен запрос. Может быть полезно, когда веб-сайт имеет региональную блокировку или для получения региональных цен.premiumProxy: указывает API использовать премиум-прокси. Такие запросы менее подвержены блокировке целевым веб-сайтом. Часто необходимо для Amazon. Используйте только при необходимости.useChrome: этот вариант сообщает API имитировать навигацию по URL с использованием браузера. Это может быть необходимо, когда веб-сайт асинхронно загружает данные (это означает, что все данные не загружаются немедленно при переходе на страницу, что иногда происходит на розничных веб-сайтах).

Пример

Вы заметите, что на этот раз мы вызываем другую конечную точку нашего API: "/retail". Эта конечная точка очень полезна для парсинга страницы розничного товара и возвращает JSON со всеми извлеченными данными, так что вам не нужно искать нужную информацию в HTML-тексте, мы делаем это за вас.

N.B. : если конечная точка розничной торговли не возвращает ожидаемые данные для конкретного розничного веб-сайта, пожалуйста, свяжитесь с нашей службой поддержки, и мы рассмотрим возможность добавления поддержки для этого веб-сайта.

Запрос розничной торговли в Postman с результатом

Наконец, давайте посмотрим, как использовать нашу конечную точку API для социальных медиа. Это поможет вам выполнять парсинг с помощью Postman для большинства платформ социальных медиа (LinkedIn, Instagram, Facebook, TikTok).

Как использовать наши конечные точки социальных сетей с помощью Postman

В целом концепция такая же. Основное отличие заключается в том, что для социальных сетей вам понадобятся 2 разных запроса, чтобы получить результат. Давайте разберемся. Первый запрос аналогичен приведенному выше примеру. Это POST-запрос для отправки всех параметров на конечную точку API социальных сетей. Опции и их возможные значения для конечных точек социальных сетей также указаны на странице документации.

Postman social media POST request

Вы можете "Отправить" этот первый запрос. API вернет ответ, содержащий "responseId". Вам понадобится это для второго запроса, который позволит нам получить конечный результат с данными.

Ниже приведен пример того, как выглядит второй запрос. На этот раз это запрос типа "GET", нам не нужно добавлять в него тело, но мы должны добавить два "Params".

Postman social media GET request with result

В приведенном выше примере скрапинг уже завершен, когда мы отправили второй запрос, поэтому мы получили данные. Возможно, что запрос займет больше времени для обработки, в этом случае вы получите другой результат, например:

{
    "status": "pending",
    "message": "Скрапинг не завершен для этого запроса, попробуйте еще раз через несколько"
}

Наконец, если процесс скрапинга завершается с ошибкой, что может произойти по многим причинам, сообщение из второго запроса ясно указывает на это. Если это произойдет, вам нужно перезапустить процесс скрапинга с первого запроса, чтобы получить новый "responseId".

Вот и все. Мы надеемся, что этот статья была полезной. Теперь вы можете выполнять все свои парсинг с помощью Postman. Если вам нужна дополнительная помощь, не стесняйтесь связаться с нами, используя контактную форму на нашем сайте.

Счастливого парсинга!