CoderCastrov logo
CoderCastrov
Парсер веб-страниц

Парсинг веб-страниц (Web Scraping)

Парсинг веб-страниц (Web Scraping)
просмотров
2 мин чтение
#Парсер веб-страниц

Введение

При работе над веб-проектом иногда возникает ситуация, когда необходимо получить данные из Iframe или веб-страницы и отобразить их на нашем экране. С помощью парсинга веб-страниц (Web Scraping) мы можем легко получить только нужные данные и использовать их.

Iframe может быть загружен как объект URL и преобразован в строку HTML, но это может занять много времени (иногда более 10 секунд). Поэтому в таких случаях рекомендуется использовать планировщик (Scheduler), чтобы создать JSON файл, соответствующий особенностям каждого проекта (например, раз в месяц), и затем асинхронно или синхронно считывать этот JSON файл и отображать его.

Парсинг (Scraping)

Парсинг веб-страниц (Web Scraping) - это компьютерная техника извлечения информации с веб-сайтов. Полное название парсинга - Scraping.

Парсинг веб-страниц

Парсинг веб-страниц, сбор данных или извлечение данных из веб-сайтов - это техника сбора информации с веб-сайтов. Парсинг веб-страниц - это компьютерная техника извлечения информации с веб-сайтов.

en.wikipedia.org

Парсинг веб-страниц - это компьютерная техника извлечения информации с веб-сайтов

Jsoup

Jsoup Library - это библиотека для парсинга HTML в Java.

jsoup Java HTML Parser, с лучшими возможностями DOM, CSS и jquery

jsoup - это библиотека для работы с реальным HTML в Java. Она предоставляет удобный API для извлечения и...

jsoup.org

Зависимость Maven

Библиотека Jackson

В Spring Boot для работы с форматом JSON используется библиотека Jackson Library. В Spring необходимо добавить зависимость, но в Spring Boot она уже включена по умолчанию.

Введение в класс ObjectMapper в Jackson | Baeldung

В этой статье рассматривается класс ObjectMapper в Jackson - и как сериализовать Java-объекты в JSON и...

www.baeldung.com

Примеры кода на Java com.fasterxml.jackson.databind.ObjectMapper.convertValue

Примеры кода на Java для использования метода convertValue() из библиотеки Jackson

www.programcreek.com

Логика

  • Использование библиотеки Jsoup для парсинга HTML
  • Создание DTO (объект передачи данных) с необходимыми свойствами
  • Извлечение нужных значений с помощью методов select и attr, и сохранение их в DTO
  • Сохранение DTO в списке
  • Вызов метода convertValue с помощью ObjectMapper
  • Вызов метода writeValueAsString с помощью ObjectMapper
  • Создание планировщика (scheduler)
  • В методе планировщика вызывается создание JSON-файла
  • Вызов метода чтения JSON-файла по необходимости

Пример