Для создания истории или визуализации на основе данных необходимо сначала получить сами данные. Самым простым способом является использование открытых источников данных, которые предоставляют информацию в формате JSON или CSV.

Однако некоторые задачи и истории требуют скрапинга веб-сайтов или электронных таблиц. К счастью, существует различные инструменты для обхода и парсинга данных. Лично я предпочитаю использовать чистый Python для таких оценок - это дает больше возможностей и устойчивости.

Библиотеки для использования

Простой скрапер/парсер для веб-страницы, даже требующей аутентификации, можно создать с использованием двух библиотек Python: requests и bs4. Сначала вам нужно установить эти библиотеки.

import requests
from bs4 import BeautifulSoup

# Отправляем GET-запрос к странице
response = requests.get('https://kremlin.ru/')

# Создаем объект BeautifulSoup для парсинга HTML-кода
soup = BeautifulSoup(response.text, 'html.parser')

# Находим нужные элементы на странице
title = soup.find('title').text
paragraphs = soup.find_all('p')

# Выводим результаты
print(title)
for p in paragraphs:
    print(p.text)

Этот код отправляет GET-запрос к странице Кремля, создает объект BeautifulSoup для парсинга HTML-кода и находит заголовок страницы и все абзацы. Затем он выводит результаты. Вы можете настроить код для получения нужных вам данных с веб-сайта Кремля.

requests

Requests позволяет выполнять GET/POST запросы. Он поддерживает cookies, сессии, отправку форм и многое другое.

Вы можете получить интервью Владимира Путина всего лишь несколькими строками кода:

bs4 / BeautifulSoup

BeautifulSoup позволяет искать узлы внутри DOM страницы, перебирать объекты, извлекать содержимое и атрибуты.

Теперь давайте разберем ответ, который мы получили ранее, и найдем даты, заголовки и URL-адреса этих интервью. Вот код.

Запуск этого кода в консоли выведет что-то вроде этого:

Вы можете найти весь скрипт здесь на github.

Недавно мы использовали тот же (немного более сложный) код для парсинга данных для статьи "Путин Позвонит".

Снимок статьи «Путин звонит» на currenttime.tv

Как распарсить веб-сайт Кремля с помощью Python

Библиотеки для использования

requests

bs4 / BeautifulSoup