Парсинг данных с использованием расширения Web Scraper (сайт Sephora)

Ассаляму алейкум ва рахматуллахи ва баракатух...

Привет! В этот раз мы рассмотрим, как извлечь данные с веб-сайта с помощью расширения Web Scraper.

Парсинг веб-сайтов - это процесс автоматического извлечения или экстракции информации из различных веб-сайтов. Эта техника использует специальное программное обеспечение или скрипты, которые могут считывать исходный код веб-страницы и извлекать нужные данные, такие как текст, изображения, цены товаров, отзывы клиентов и т. д. Полученные данные из парсинга веб-сайтов могут быть преобразованы в более структурированный формат, такой как таблица или база данных, для дальнейшего анализа или использования в различных приложениях.

На этот раз мы будем использовать инструмент под названием Web Scraper. Web Scraper - это расширение или плагин, которое можно установить в браузер Google Chrome и которое позволяет легко собирать данные с веб-страниц автоматически. С помощью Web Scraper мы можем извлекать данные с различных электронных коммерческих сайтов, таких как Sephora, Shopee и другие, выбирая нужные элементы.

На этот раз мы будем парсить данные, чтобы получить некоторую информацию о косметических продуктах на сайте Sephora с ссылкой: https://www.sephora.co.id/

Шаги для парсинга с использованием расширения Web Scraper следующие.

1. Установка расширения Web Scraper в Google Chrome

Откройте Google Chrome и перейдите в Chrome Web Store. Затем воспользуйтесь поиском, чтобы найти расширение под названием "Web Scraper". После того, как вы его найдете, нажмите на кнопку "Добавить в Chrome" для установки. После завершения установки, значок Web Scraper появится на панели инструментов Chrome, что означает, что расширение установлено и готово к использованию.

2. Открытие веб-страницы для парсинга

После успешной установки расширения, откройте веб-страницу, которую вы хотите спарсить. Затем откройте панель расширения, щелкнув правой кнопкой мыши на этой веб-странице и выбрав опцию "Inspect". Затем выберите "Web Scraper", которое можно найти в меню в правом верхнем углу панели инспекции.

3. Создание новой карты сайта

Сначала мы создаем карту сайта, нажимая на вариант "Создать новую карту сайта", а затем выбираем "Создать карту сайта".

4. Дать имя карте сайта и ввести URL

Затем определите имя для карты сайта в поле Имя карты сайта, а для поля Начальный URL 1 скопируйте URL страницы, с которой вы хотите извлечь или спарсить данные, а затем вставьте его в это поле. Затем нажмите Создать карту сайта, чтобы сохранить только что созданную карту сайта.

5. Добавление нового селектора

После сохранения карты сайта следующим шагом является создание или добавление нового селектора, нажав на опцию "Добавить новый селектор" для создания нового правила извлечения.

После нажатия на опцию "Добавить новый селектор" появится несколько полей, которые нужно заполнить, включая Id, Type, Selector и другие.

Сначала мы создадим селектор с именем Id "scrolldown", а для Type выберем "element scroll down". Затем, чтобы заполнить поле Selector, наведите курсор на данные, которые вы хотите извлечь, пока они не станут желтыми, затем нажмите, чтобы они стали красными. В этом селекторе scrolldown выберите все элементы на веб-сайте. Если все элементы стали красными, нажмите "Готово с выбором".

Затем выберите опцию Multiple, чтобы собрать все значения из выбранных элементов, оставьте поле Regex пустым, а для Page Selectors оставьте значение по умолчанию. Затем нажмите "Сохранить селектор", чтобы сохранить созданное правило извлечения.

Второй селектор выбирает элемент веб-сайта, содержащий информацию о продукте и отзывы о продукте. Второй селектор называется Id "review", а для Type выберите "element". Опции Multiple, Regex и Page Selector остаются такими же, как и раньше. Затем нажмите "Сохранить селектор", чтобы сохранить созданное правило извлечения.

Третий селектор, который мы создадим внутри предыдущего селектора "review", щелкните селектор "review", а затем нажмите "Добавить новый селектор". Третий селектор называется Id "pagination". Этот селектор предназначен для того, чтобы извлекаемые данные охватывали все страницы. Для Type выберите "element click", а в поле selector выберите элемент, содержащий отзывы, а в поле click selector выберите значок страницы в правом нижнем углу отзыва. Затем в поле click type выберите "click more", в поле parent selector выберите "review" и "pagination". Остальные опции в других полях оставьте по умолчанию.

Четвертый селектор, который мы создадим внутри селектора "pagination". Щелкните селектор "pagination", затем нажмите "Добавить новый селектор". Четвертый селектор называется Id "ulasan". Для Type выберите "element". Чтобы заполнить поле selector, выберите часть, содержащую отзывы пользователей, также выберите следующую строку, чтобы они были полностью выбраны и стали красными. Если все элементы стали красными, нажмите "Готово с выбором". Остальные опции в других полях оставьте по умолчанию.

Для следующего селектора мы снова создадим селектор внутри селектора "review". На этот раз мы будем извлекать информацию о продукте, такую как Brand, Name, Rating и Price. Щелкните селектор "review", затем нажмите "Добавить новый селектор". Введите Id с именем "Brand", с Type "text", затем заполните поле selector, чтобы выбрать название бренда, которое присутствует на продукте. Остальные опции в других полях оставьте по умолчанию. Повторите то же самое для выбора Name, Rating и Price.

Затем, чтобы извлечь информацию из раздела отзывов, мы создадим новый селектор внутри предыдущего селектора "ulasan". Информация, которую мы будем извлекать, включает Date, Users, Type и Reviews. Щелкните селектор "review", щелкните селектор "pagination", щелкните селектор "ulasan", затем нажмите "Добавить новый селектор". Введите Id с именем "Date", с Type "text", затем заполните поле selector, чтобы выбрать дату создания отзыва, затем в поле parent selector выберите "review" и "ulasan". Остальные опции в других полях оставьте по умолчанию. Повторите то же самое для выбора Users, Type и Reviews.

Если вы создали все необходимые селекторы, щелкните root, а затем нажмите "Предварительный просмотр данных", чтобы увидеть, успешно ли данные выбраны в соответствии с вашими ожиданиями.

Если предварительный просмотр данных не соответствует вашим ожиданиям, значит, при создании селектора была допущена ошибка. Чтобы легче просмотреть созданные селекторы, щелкните карту сайта EYESHADOW3, а затем щелкните график селекторов. Тогда вы увидите график, показывающий созданные ранее селекторы.

6. Запуск процесса парсинга

После того, как мы убедились в правильности предварительных данных, мы можем начать парсить данные, нажав на карту сайта EYESHADOW3 и выбрав парсинг.

Затем мы можем настроить Интервал запросов и Задержку загрузки страницы. Интервал запросов используется для контроля времени между запросами, отправляемыми парсером, в то время как Задержка загрузки страницы - это задержка после того, как страница полностью загружена, перед началом процесса извлечения данных. Чем больше данных нужно извлечь, тем больше нужно установить Интервал запросов, чтобы оптимизировать процесс парсинга и обеспечить точное и последовательное извлечение данных. Затем можно нажать «Начать парсинг» и подождать несколько секунд, пока данные не будут собраны.

Во время процесса извлечения данных появится новое окно, и процесс извлечения будет выполняться автоматически. После завершения процесса парсинга данные будут отображены в панели расширения. Если данные еще не отображаются, их можно обновить, нажав кнопку «Обновить данные».

7. Сохранение данных

Результаты процесса парсинга могут быть сохранены, выбрав опцию "Экспорт данных" в расширении. Тогда данные будут загружены в соответствии с тем, что отображается в расширении.

Web Scraper предоставляет возможность сохранять данные, полученные в результате парсинга, в формате XLSX или CSV.

Кроме парсинга, данные также можно сохранить, скопировав данные из предварительного просмотра данных и вставив их в Microsoft Excel. Этот способ удобнее использовать, если вы хотите выполнить парсинг нескольких продуктов на веб-сайте. При парсинге следующего продукта можно продолжить с вставки в Excel под предыдущими данными. Таким образом, можно сохранить данные нескольких продуктов в одном и том же файле Excel.

Вот и все шаги по извлечению данных с веб-сайта с использованием расширения Web Scraper.

С помощью этих простых шагов мы можем создать карту сайта, добавить селекторы и извлечь нужные данные. Однако важно всегда соблюдать этику и политику конфиденциальности, а также соблюдать действующие правила использования Web Scraper. Правильное использование этого инструмента позволяет расширить кругозор, поддерживать принятие решений на основе данных и использовать огромный потенциал неограниченного океана цифровой информации.

Спасибо за чтение и надеюсь, что это было полезно :)