CoderCastrov logo
CoderCastrov
Питон

Овладение Python с помощью создания парсера для трендовых новостей на kumparan.com - Часть 2

Овладение Python с помощью создания парсера для трендовых новостей на kumparan.com - Часть 2
просмотров
2 мин чтение
#Питон

Представляем BeautifulSoup4 и Requests

Если вы работаете в области парсинга, вы наверняка много слышали о модулях requests и beautifulsoup4. Если нет, то эту статью стоит прочитать.

Requests

Requests - это проект, который в настоящее время поддерживается CERT Gouvernemental - GOVCERT.LU. Они называют его "элегантной и простой библиотекой HTTP для Python, созданной для людей". Мы должны оценить создателя, который поддерживает этот проект, потому что с помощью этого модуля нам не нужно иметь дело с сложным кодом, чтобы "просмотреть" данные на веб-странице. При использовании модуля requests кажется, что вы просто вводите что-то в своем браузере, и данные просто появляются. Так просто.

Итак, в основном мы используем модуль requests для получения данных с веб-страницы, которую мы хотим. Вы можете найти домашнюю страницу здесь:

Запросы: HTTP для людей™ - Документация Requests 2.27.1

Версия v2.27.1. (Установка) Requests - это изящная и простая библиотека HTTP для Python, созданная для людей...

docs.python-requests.org

Вы также можете проверить ее на PyPi.org

requests

Requests - это простая, но элегантная библиотека HTTP. Requests позволяет отправлять запросы HTTP/1.1 очень легко...

pypi.org

Чтобы установить этот пакет, откройте терминал и введите этот код:

pip install requests

Beautifulsoup4

Beautifulsoup4 играет важную роль в области парсинга. Она позволяет программистам экономить часы или дни работы. Она разработана для быстрых проектов, таких как парсинг страниц. Метод более "питоничный" и автоматически выполняет кодирование документов. Beautifulsoup4 может анализировать все, что вы ей даете. Вы можете сказать ей "Найди все ссылки" или "Найди все ссылки с классом externalLink" или "Найди все ссылки, URL которых соответствуют "doge.com" или "Найди заголовок таблицы с жирным текстом, затем дай мне этот текст" - все это возможно.

Домашняя страница проекта находится здесь:

Beautiful Soup

Загрузка | Документация | Зал славы | Для предприятий | Исходный код | Изменения | Группа обсуждения | Zine ] Вы не...

www.crummy.com

И здесь на PyPi:

beautifulsoup4

Beautiful Soup - это библиотека, которая упрощает извлечение информации с веб-страниц. Она работает с HTML или XML...

pypi.org

Чтобы установить этот пакет, откройте терминал и введите этот код:

pip install beautifulsoup4

С помощью Requests вы получаете веб-данные, с помощью Beautifulsoup4 вы извлекаете данные в нужный вам формат. Что за идеальное сочетание!

В следующей истории я объясню, как мы можем использовать эти два модуля, чтобы получить данные о популярных новостях с Kumparan.com. До тех пор увидимся в следующих историях.

Больше контента на plainenglish.io. Подпишитесь на наш_ _бесплатный еженедельный бюллетень. Получите эксклюзивный доступ к возможностям написания и советам в нашем сообществе Discord.