CoderCastrov logo
CoderCastrov
Парсер

Парсинг будущих гаджетов Дораэмона

Парсинг будущих гаджетов Дораэмона
просмотров
2 мин чтение
#Парсер

Дораэмон - робот 22-го века, который был отправлен Сэваси Ноби. Сэваси Ноби отправил Дораэмона, чтобы помочь своему неуклюжему дедушке Нобите, который обременил своих потомков долгами из-за своих плохих решений.

Знаете ли вы, сколько гаджетов у Дораэмона?

По некоторым статьям, у Дораэмона было около 4500 гаджетов в его "Волшебном кармане".

Меня интересуют его гаджеты, поэтому я попытался найти список всех гаджетов Дораэмона. Я не смог найти полную базу данных, но нашел вики-сайт Дораэмона, который предоставляет информацию о сериях, гаджетах, персонажах и т. д.

https://doraemon.fandom.com/

На основе этого сайта там перечислено 658 гаджетов, которые описаны достаточно подробно, лучше, чем ничего.

Я хочу провести некоторый "анализ" гаджетов Дораэмона позже. Поэтому я решил спарсить все данные о гаджетах на этом сайте для дальнейшего использования.

Когда я делаю парсинг, я всегда использую Python3 в качестве языка программирования, а Selenium с Beautifulsoup в качестве библиотеки, чтобы помочь мне в выполнении задач парсинга.

Сайт Doraemon Fandom дает мне список гаджетов и подробности о гаджетах, если я нажимаю на название гаджета.

Doraemon Fandom

Итак, шаги, которые я использую для парсинга этого сайта, следующие:

Вот полный код моего парсера

Selenium используется для навигации и эмуляции браузера, чтобы я мог получить все страницы, которые я хочу спарсить.

BeautifulSoup используется для парсинга элементов на веб-страницах.

Класс Database - это мой собственный класс, который я использую для сохранения базы данных. Вы можете скачать database.py, который содержит этот класс, по следующей ссылке на GitHub.

DeaVenditama/doraemon-fandom-scraper

Внесите свой вклад в разработку DeaVenditama/doraemon-fandom-scraper, создав учетную запись на GitHub.

github.com

Я использую MySQL в качестве базы данных, и это моя структура таблицы, которую я использую для сохранения данных, я назвал ее gadget.

Настройте конфигурацию в файле config.py, изменив хост, пользователя, пароль и имя базы данных в соответствии с вашей локальной машиной.

db = dict(
     host="localhost",
     user="root",
     passwd="",
     database="doraemon"
)

Для запуска парсера выполните следующую команду:

python3 doraemon.py

Selenium будет эмулировать Chrome и открывать веб-сайт Doraemon fandom. Позвольте ему открыться, и парсер начнет работать, браузер Chrome будет закрыт после того, как парсер закончит сбор всех гаджетов.

Список гаджетов

Вот список из 658 гаджетов, которые были загружены в мою базу данных. Если вы посмотрите, я получаю всю детальную информацию, включая HTML, я делаю это, потому что в детальных страницах нет постоянной структуры.

Позже мне придется выполнить некоторую очистку текста в столбце с деталями, чтобы разделить описание, использование, пользователя и внешний вид гаджета.

Спасибо