CoderCastrov logo
CoderCastrov
Парсер веб-сайтов

Что такое парсинг веб-страниц?

Что такое парсинг веб-страниц?
просмотров
1 мин чтение
#Парсер веб-сайтов

Парсинг веб-страниц в нескольких словах

Парсинг веб-страниц - это процесс извлечения данных с сайта.

Вы также можете услышать следующие термины:

  • парсинг веб-страниц
  • сбор данных с веб-страниц
  • извлечение данных с веб-страниц

Пример информации, которую нам нужно

Представьте, что у нас есть некоторый товар в магазине Ebay. И мы хотели бы собрать следующие поля:

  • категория
  • название
  • цена
  • стоимость доставки
  • и так далее

Скопировать-вставить эти данные несложно. Но что, если нам нужно 100 товаров, 1 000 товаров, 1 000 000 товаров. Сколько времени вы потратите на копирование-вставку этих данных? Парсинг делает это за вас.

Предварительный процесс парсинга

Фактически, когда мы начинаем парсить сайт, мы не знаем все страницы, которые нам нужно спарсить. Процесс поиска/индексации страниц называется веб-пауком.

Процесс индексации

Представим, что у нас уже есть список страниц, которые мы хотим спарсить. В этом случае мы будем парсить страницу за страницей из списка и пытаться найти список полей, которые нас интересуют.

Парсинг страницы

Для парсинга страницы нам нужно знать селекторы, которые мы ищем. В Scraper.biz мы называем набор селекторов моделью извлечения.

Пример модели извлечения

С помощью этих селекторов мы можем просто определить поля, которые мы хотим найти на каждой странице. Извлечение этих данных со страниц называется парсингом.

Результат парсинга

Спасибо за ваше внимание

Спасибо за ваше внимание. Если у вас есть вопросы или советы, пожалуйста, не стесняйтесь связаться со мной. Я буду рад помочь вам.

LinkedIn, Twitter, Google+, lytvynov.anton@gmail.com, https://lytvynov-anton.com