CoderCastrov logo
CoderCastrov
Питон

Как парсить HREF в BeautifulSoup с использованием Python

Как парсить HREF в BeautifulSoup с использованием Python
просмотров
1 мин чтение
#Питон
Table Of Content
scrape HREF in BeautifulSoup

В этой статье я покажу вам, как парсить или получать значение HREF в BeautifulSoup с использованием Python.

Шаги

В этой статье мы будем парсить веб-сайт "Cari Kode Pos", это веб-сайт, который отображает список почтовых индексов для всех регионов Индонезии. Ссылка.

Вот какой вид вы должны увидеть при посещении:

cari kode pos API

Затем попробуйте открыть "Инструменты разработчика" (щелкните правой кнопкой мыши) и увидите, что список регионов хранится в таблице. Каждое значение хранится в теге td.

Давайте попробуем получить:

  • Импортируйте get и BeautifulSoup
from requests import get
from bs4 import BeautifulSoup
  • Определите базовый URL
_baseurl_ = 'https://carikodepos.com/daerah'
  • Получите таблицу
page = get(_baseurl_)
soup = BeautifulSoup(page.text, 'lxml')
table = soup.find_all('table')

Вы должны получить результат, похожий на это:

get HREF value using BeautifulSoup
  • Получите td
for i in table:
  get_td = i.find_all('td')
  print(get_td)
  • Получите href, который находится внутри тега a
for i in table:
  get_td = i.find_all('td')
  for j in get_td:
    get_ = j.find('a')['href'].strip().split('/')[-2]
    link = "{}/{}".format(_baseurl_, get_)
    print(link)

Вы должны получить результат, похожий на это:

Поздравляю, вы успешно спарсили href в BeautifulSoup с использованием Python.