CoderCastrov logo
CoderCastrov
Парсер

Парсинг таблицы Wikipedia с помощью двух строк на Python

Парсинг таблицы Wikipedia с помощью двух строк на Python
просмотров
1 мин чтение
#Парсер

Вдохновлено этой статьей.

Парсинг таблиц Wiki с использованием BeautifulSoup и Python !!

'Данные - новая нефть'

medium.com

Парсинг HTML-таблицы для создания матричных данных

На этот раз я использую Pandas в качестве библиотеки для вычислений с матрицами. Просто, мы можем использовать read_html() для парсинга. Здорово!

import pandas as pd
pd.read_html( <URL> )

pandas.read_html - документация pandas 0.23.4

io: str или file-like A URL, a file-like object, or a raw string containing HTML. Note that lxml only accepts the http…

pandas.pydata.org


Есть только один недостаток: заголовок не считывается по умолчанию, и он считывается как простая строка, например, как первая строка.

Чтобы указать, что это не просто строка, а заголовок, мы можем установить параметр следующим образом.

dfs = pd.read_html(<URL>, header=<# of row>)

Например, я спарсил таблицу городов в Японии на Wikipedia (https://en.wikipedia.org/wiki/List_of_cities_in_Japan)

WIKI_URLWIKI_UR = “[https://en.wikipedia.org/wiki/List_of_cities_in_Japan](https://en.wikipedia.org/wiki/List_of_cities_in_Japan)"
dfs = pd.read_html(WIKI_URL, header=0) # установка заголовка с номером строки 0

Вот и все. Спасибо.

onelittlenightmusic/python_graphql_scraping_example

GitHub - это место, где люди создают программное обеспечение. Более 28 миллионов людей используют GitHub для поиска, форка и внесения вклада в проекты...

github.com

Эта функция использует известный инструмент парсинга beautifulsoup4 внутри, который показан в первой ссылке.

Приложение (японские ссылки)

https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406

Использование отформатированной матрицы Pandas

Способы добавления строк и столбцов следующие. Используйте dataframe['имя столбца'] = значение. http://sinhrks.hatenablog.com/entry/2014/11/12/233216

Способы удаления строк и столбцов следующие. Используйте функцию drop. https://note.nkmk.me/python-pandas-drop/

Исходный код

https://github.com/onelittlenightmusic/python_graphql_scraping_example