CoderCastrov logo
CoderCastrov
Автоматизация

Как парсить данные с KBDfans с помощью Python

Как парсить данные с KBDfans с помощью Python
просмотров
4 мин чтение
#Автоматизация

Добро пожаловать снова.... В 2016 году был основан KBDfans. С одного человека до нынешней команды из 40 человек, KBDfans постепенно развивается и растет. Мы будем использовать Python, поэтому, если у вас нет опыта работы с Python, я рекомендую освежить свои знания этого языка.

Как всегда, перед парсингом веб-сайта нам нужно определить, какие конкретные данные мы хотим извлечь. После просмотра страницы я автоматически увидел множество различных данных, которые мы можем получить. В этом проекте мы будем парсить название продукта, ссылку на продукт и цену продуктов на kbdfans.

Давайте начнем!

Основные сведения, которые вы, вероятно, можете пропустить, я скопировал из своей другой статьи

Прежде всего, нам понадобится установить Python, убедитесь, что у вас установлен Python и какая-нибудь среда разработки. Selenium pro - это пакет для парсинга веб-сайтов, который позволяет нам имитировать веб-браузер с помощью Python. Возможно, лучше иметь более глубокое понимание парсинга веб-сайтов. Пакет Selenium pro - https://pypi.org/project/selenium-pro/

pip install selenium-pro

Установка расширения

Загрузите Selenium Auto Code Generator из Chrome Web Store, чтобы не копировать и вставлять xpath, это инструмент поможет и упростит процесс, без необходимости копирования и вставки. Загрузите отсюда - https://chrome.google.com/webstore/detail/selenium-auto-code-genera/ocimgcpcnobcnmclomhhmjidgoiekeaf/related

Начнем!

Теперь, когда у нас настроена среда Python, давайте откроем пустой скрипт Python. Давайте импортируем пакет Selenium pro, который вы, надеюсь, предварительно установили в предыдущем абзаце (просто pip install selenium-pro). После установки импортируйте следующие пакеты:

from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys

Мы используем браузер Google Chrome в качестве нашего графического интерфейса, но вы можете использовать другие браузеры в Selenium pro, если хотите использовать другой браузер, пожалуйста, используйте его! Убедитесь, что на вашем компьютере установлен нужный браузер.

Теперь, внутри Selenium pro, нам нужно определить наш веб-браузер, поэтому давайте сделаем это с помощью следующей строки кода:

driver = webdriver.Start()

Я рекомендую запустить весь ваш код до этого момента и проверить, успешно ли выполняется код. Если да, вы практически готовы продолжать!

Конвейер KbdfansСледующий шаг - самая интересная часть. Щелкните на расширении DK, которое мы установили ранее, и нажмите "начать запись". Это определенно не будет сложной задачей, но, к счастью, у вас есть я здесь.

Откройте веб-сайт Kbdfans и добавьте ожидание в 3 секунды для загрузки веб-сайта, а затем выполните поиск ключевого слова на веб-сайте и нажмите Enter. Чтобы добавить ожидание, щелкните правой кнопкой мыши на экране и выберите "ожидание" -> 3. Теперь, если вы щелкнете на расширении, вы найдете код уже там в расширении, как показано ниже.

# открыть URL в браузере
driver.get('[https://kbdfans.com/'](https://kbdfans.com/'))
time.sleep(3)

Отлично! Это указывает нашему браузеру Chrome Python на этот конкретный веб-сайт, функция "time.sleep(3)" просто говорит Python подождать 3 секунды перед продолжением работы, это необязательно, но я все равно добавил это.

После этого расширение будет искать Id с помощью driver.find_element_by_pro и click(), событие click будет нажимать Id

# нажать на найденный элемент
driver.find_element_by_pro('pCqi3nAXtECfoDg').click()

и send_keys('pcb') введет ключевое слово pcb, а send_keys(Keys.ENTER) нажмет Enter

# ввести содержимое в поле ввода
driver.find_element_by_pro(‘RZrSuYw6n3ayp36’).send_keys(‘pcb’)
# нажать клавишу Enter
driver.switch_to.active_element.send_keys(Keys.ENTER)

Скопируйте код из расширения и протестируйте код до этого момента..

Получение данныхОтлично! Теперь давайте возобновим запись. После ввода ключевого слова на веб-сайте kbdfans наведите указатель на заголовок продукта, затем щелкните правой кнопкой мыши и выберите "скрэп" -> "текст", чтобы получить текст продукта.

Теперь вы можете получить ссылку и цену таким же образом. В расширении ваши действия будут имитированы следующим образом:

# получить текст элемента
 title=list_element.find_element_by_pro(‘G9HWV6WMSTBvGWl’).text
 # получить текст элемента
 price=list_element.find_element_by_pro(‘UoTdxnQyZv12GoV’).text
 # получить ссылку элемента
link=list_element.find_element_by_pro(‘7TNbdx4SlC9Ems7’).get_attribute(‘href’)

Мы закончили... Поверьте или нет

Полный кодВ случае, если вы застряли или запутались, вот весь код для этого проекта:

from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
driver = webdriver.Start()
# открыть URL в браузере
driver.get(‘[https://kbdfans.com/'](https://kbdfans.com/'))
time.sleep(3)
# нажать на найденный элемент
driver.find_element_by_pro(‘pCqi3nAXtECfoDg’).click()
# ввести содержимое в поле ввода
driver.find_element_by_pro(‘RZrSuYw6n3ayp36’).send_keys(‘pcb’)
# нажать клавишу Enter
driver.switch_to.active_element.send_keys(Keys.ENTER)
time.sleep(3)
# получить текст элемента
 title=list_element.find_element_by_pro(‘G9HWV6WMSTBvGWl’).text
 # получить текст элемента
 price=list_element.find_element_by_pro(‘UoTdxnQyZv12GoV’).text
 # получить ссылку элемента
link=list_element.find_element_by_pro(‘7TNbdx4SlC9Ems7’).get_attribute(‘href’)

Запуск этой программыТеперь, чтобы запустить эту программу, скопируйте код из расширения и сохраните его как файл .py > откройте ваш терминал / командную строку и введите следующую команду:

python3 ПУТЬ/К/ВАШЕМУ/ФАЙЛУ.PY

Или, если вы используете среду разработки, такую ​​как Pycharm, просто запустите программу в ней. При запуске этой программы вы увидите, что открывается браузер Chrome, он будет ждать несколько секунд, а затем выведет точки данных в консоль Python!

Поздравляю! Я рекомендую поискать способы улучшить этот проект: можете ли вы добавить интерфейс, где люди могут размещать свои ссылки? Можете добавить цикл для парсинга всех ссылок и текста со всех страниц. В противном случае, вам следует гордиться собой за то, что вы прошли через этот учебник!