CoderCastrov logo
CoderCastrov
Парсер

Кандидаты - Исследование случая (часть парсера)

Кандидаты - Исследование случая (часть парсера)
просмотров
2 мин чтение
#Парсер
Table Of Content

Парсинг веб-страницы "избирательная платформа"

Я нашел API, откуда получается вся информация, сделал несколько запросов и получил данные.

После этого я загрузил их в базу данных Postgres.

Инструменты: requests, json

Количество данных: 500 000

Ссылка на спарсенную страницу:

Платформа выборов

Описание редактирования

plataformaelectoral.jne.gob.pe

Исходный код:

GitHub - Datoss-Incorruptibles/ScraperElecciones2021

Ссылка на спарсенную страницу: https://plataformaelectoral.jne.gob.pe/ListaDeCandidatos/Index После установки python...

github.com

Парсинг веб-страницы "конгрессуальные законопроекты"

Я нашел API, откуда получается вся информация, сделал несколько запросов и получил данные.

После этого я загрузил их в базу данных Postgres.

Инструменты: BeautifulSoup, json, csv

Количество данных: 300 000

Проекты законов 2016 - 2021

Статья 67. Предложения или проекты законов или резолюций являются инструментами, с помощью которых...

www.congreso.gob.pe

GitHub - Datoss-Incorruptibles/congreso-scraper

Вы не можете выполнить это действие в данный момент. Вы вошли в систему в другой вкладке или окне. Вы вышли из системы в другой вкладке или окне.

github.com

Парсинг новостей "кандидатов".

Парсинг известных новостей в Перу, таких как el comercio, rpp и la republica.

Также я парсил раздел новостей на google news, который содержал определенные ключевые слова.

Инструменты: BeautifulSoup, json, csv

Объем данных: 1 миллион

https://news.google.com/home

GitHub - Datoss-Incorruptibles/medios-scraper

Ссылка на скрапинговые страницы: comercio После установки python запустите: py -m venv venv ven\Scripts\activate python3 -m…

github.com

Парсинг веб-страниц "судебных файлов кандидатов".

Я использовал selenium, потому что было необходимо вводить данные для каждого кандидата.

Мне пришлось пройти капчу, для этого я использовал pytesseract и PIL для обработки изображений.

Инструменты: selenium, pytesseract, PIL

Количество данных: 10000

CEJ - Консультация судебных дел - Поиск дел

Описание редактирования

cej.pj.gob.pe

GitHub - Datoss-Incorruptibles/poder-judicial-scraper

В настоящее время вы не можете выполнить это действие. Вы вошли в другую вкладку или окно. Вы вышли из системы в другой вкладке или...

github.com

Эта статья является частью проекта Candidatos

https://sssimple.medium.com/candidatos-case-study-cb82930153bf