CoderCastrov logo
CoderCastrov
Питон

Овладение Python с помощью создания парсера для самых популярных новостей на Kompas.com — Часть 2: Введение в BeautifulSoup и Requests

Овладение Python с помощью создания парсера для самых популярных новостей на Kompas.com — Часть 2: Введение в BeautifulSoup и Requests
просмотров
2 мин чтение
#Питон

Доброе утро всем,

В этой статье мы продолжим наше путешествие по овладению Python с помощью создания парсера веб-страниц, который извлекает самые популярные новости с Kompas.com. В этой второй части мы познакомимся с двумя важными модулями, BeautifulSoup и Requests, которые будут необходимы для нашего парсера.

Requests

Requests - это библиотека HTTP для Python, которая упрощает процесс получения данных с веб-страницы. Она поддерживается CERT Gouvernemental — GOVCERT.LU и описывается как "элегантная и простая библиотека HTTP для Python, созданная для людей". С помощью модуля requests мы можем легко получать данные с веб-страницы, не затрагивая сложный код. Это так же просто, как ввод URL-адреса в вашем браузере, и данные просто появляются. Если вы хотите узнать больше о модуле requests, вы можете посетить их домашнюю страницу здесь:

Запросы: HTTP для людей™ - Документация Requests 2.28.2

Версия v2.28.2. ( Установка ) Requests - это элегантная и простая библиотека HTTP для Python, созданная для людей...

docs.python-requests.org

Вы также можете найти модуль requests на PyPi.org.

requests

Requests - это простая, но элегантная библиотека HTTP. Requests позволяет легко отправлять запросы HTTP/1.1...

pypi.org

Чтобы установить модуль requests, просто откройте терминал и введите этот код:

pip install requests

BeautifulSoup4

BeautifulSoup4 - это необходимый инструмент для парсинга веб-страниц, который сэкономил программистам бесчисленные часы работы. Он специально разработан для быстрых проектов, таких как парсинг страниц и предлагает более питоновский подход к разбору HTML и XML документов. Одной из его ключевых особенностей является возможность автоматического кодирования документов. С BeautifulSoup4 вы можете разбирать все, что вы ему даете, от ссылок до заголовков таблиц с жирным текстом. Домашняя страница проекта BeautifulSoup4 может быть найдена здесь:

Beautiful Soup

Загрузка | Документация | Зал славы | Для предприятий | Исходный код | История изменений | Группа обсуждения | Журнал ] Вы не...

www.crummy.com

И здесь на PyPi:

beautifulsoup4

Beautiful Soup - это библиотека, которая упрощает извлечение информации с веб-страниц. Она работает с HTML или XML...

pypi.org

Чтобы установить модуль BeautifulSoup4, просто откройте терминал и введите этот код:

pip install beautifulsoup4

Модуль Requests позволяет получать веб-данные, а Beautifulsoup4 позволяет извлекать эти данные в выбранном формате. Вместе они образуют идеальную комбинацию для парсинга веб-страниц.

В следующей статье я объясню, как использовать эти два модуля для извлечения данных о самых популярных новостях с сайта kompas.com. Следите за следующей статьей!