CoderCastrov logo
CoderCastrov
Веб-парсер

#60 Парсинг веб-страниц (часть 4): Забавный проект с использованием Scrapy

#60 Парсинг веб-страниц (часть 4): Забавный проект с использованием Scrapy
просмотров
1 мин чтение
#Веб-парсер

Веб-сайт для парсинга (неразборчивый веб-сайт).

Инструменты: VS Code, Scrapy, Anaconda.Navigator

(Для простого парсера веб-страницы будет достаточно Scrapy, не нужно использовать API или Selenium)

1. Создание стандартного парсера

· Откройте Anaconda.Navigator -> создайте новую виртуальную среду и нажмите "Открыть терминал"

· В терминале используйте команды startproject и genspider для создания стандартного парсера

· Откройте папку с парсером в VS Code. (Интерпретатор Python должен быть установлен в той же виртуальной среде, которую вы только что создали выше)

2. Создание парсера для сбора данных о времени и новых случаях

  • Сначала нужно проанализировать структуру веб-сайта, нажав F12 и изучив все временные линии. Следует заметить, что на одной странице есть 10 временных линий, и для перехода на новую страницу нужно нажать кнопку "Tiep theo", которая находится в конце страницы.
  • Идея создания парсера: использовать рекурсию, чтобы последовательно переходить на последнюю страницу, нажимая кнопку "Tiep theo". Перед каждой рекурсией необходимо сначала извлечь время и новые случаи -> перейти на следующую страницу -> повторить процесс (сбор данных о времени и новых случаях) -> повторить до последней страницы -> остановиться.
  • Для новых случаев: есть 4 шага для преобразования текста и получения конечного числа новых случаев: заменить точку между числами -> удалить акценты -> использовать регулярное выражение для получения соответствующего массива строк -> условно получить конечную строку.

3. Итоговый результат

Было сгенерировано 331 результатов.