Как парсить данные с RIPNDIP с использованием Python

Добро пожаловать снова.... RipNDip Clothing, Accessories, And Footwear и многое другое. Мы будем использовать Python, поэтому, если у вас нет опыта работы с Python, я рекомендую освежить свои знания по этому языку.

Как всегда, перед парсингом данных с веб-сайта нам нужно определить, какие конкретные данные нам нужно получить. После просмотра страницы я сразу увидел множество разных данных, которые мы можем получить. В этом проекте мы будем парсить название продукта, ссылку на продукт и цену продуктов на Ripndip.

Давайте начнем!

Основное введение, которое вы, вероятно, можете пропустить, я скопировал из моей другой статьи

Прежде всего, нам понадобится установленный Python, убедитесь, что у вас установлен Python и какая-нибудь среда разработки. Selenium pro - это пакет для парсинга веб-сайтов, который позволяет нам имитировать веб-браузер с помощью Python, поэтому лучше иметь представление о парсинге веб-сайтов. Установите пакет Selenium pro - https://pypi.org/project/selenium-pro/

pip install selenium-pro

Установка расширения

Загрузите Selenium Auto Code Generator из Chrome Web Store, с помощью этого инструмента вы сможете легко генерировать код без необходимости копирования и вставки пути к элементу. Загрузите его отсюда - https://chrome.google.com/webstore/detail/selenium-auto-code-genera/ocimgcpcnobcnmclomhhmjidgoiekeaf/related

Давайте начнем!

Теперь, когда у нас настроена среда Python, давайте откроем пустой скрипт Python. Давайте импортируем пакет Selenium pro, который вы, надеюсь, предварительно установили (просто выполните pip install selenium-pro). После установки импортируйте следующие пакеты:

from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys

Мы используем браузер Google Chrome в качестве нашего графического интерфейса, но вы можете использовать другие браузеры в Selenium pro, если хотите использовать другой браузер, пожалуйста, убедитесь, что этот браузер установлен на вашем компьютере.

Теперь, внутри Selenium pro, нам нужно определить наш веб-браузер, поэтому давайте сделаем это с помощью следующей строки кода:

driver = webdriver.Start()

Я рекомендую запустить весь ваш код до этой точки и проверить, успешно ли выполняется код. Если да, то вы практически готовы продолжать!

Ripndip PipelineСледующий шаг - это интересная часть. Нажмите на расширение DK, которое мы установили ранее, и нажмите "начать запись". Это определенно не будет сложной проблемой, но, к счастью, у вас есть я, чтобы помочь.

Откройте веб-сайт ripndip и добавьте ожидание в 3 секунды, чтобы сайт загрузился, затем выполните поиск по ключевому слову на сайте и нажмите Enter. Чтобы добавить событие ожидания, щелкните правой кнопкой мыши на экране и выберите "wait" -> 3. Теперь, если вы щелкнете по расширению, вы увидите, что код уже присутствует в расширении, как показано ниже.

# открыть URL в браузере
driver.get(‘[https://www.ripndipclothing.com/'](https://www.ripndipclothing.com/'))
time.sleep(3)

Отлично! Это указывает нашему Python Chrome браузеру открыть указанный выше веб-сайт, функция "time.sleep(3)" просто указывает Python подождать 3 секунды перед продолжением работы, это необязательно, но я все равно добавил это.

После этого расширение будет искать Id с помощью driver.find_element_by_pro и выполнит click(), событие click() нажмет на Id.

# нажать на поле ввода
driver.find_element_by_pro(‘MJWf0CqDwmejUzI’).click_pro()

и send_keys(‘bags’) введет ключевое слово "bags", а send_keys(Keys.ENTER) нажмет Enter.

# ввести содержимое в поле ввода
driver.find_element_by_pro(‘YS2u9iNSLuG2M2J’).type(‘bags’)
# нажать клавишу Enter
driver.switch_to.active_element.type(‘Enter’)

Скопируйте код из расширения и протестируйте код до этого момента.

Получение данныхОтлично! Теперь давайте возобновим запись. После ввода ключевого слова на веб-сайте ripndip наведите курсор на название продукта, затем щелкните правой кнопкой мыши и выберите "scrape" -> "text", чтобы получить текст продукта.

Теперь вы можете парсить ссылку и цену аналогичным образом. В расширении ваше действие будет имитировано следующим образом:

# получить текст элемента
title = list_element.find_element_by_pro(‘B3F6KslWGipSeCj’).text
# получить текст элемента
price = list_element.find_element_by_pro(‘QL0qYq11ZMT0mua’).text
# получить ссылку элемента
link = list_element.find_element_by_pro(‘nV5BucEOFXUQFSn’).get_attribute(‘href’)

Мы закончили! Верите или нет.

Полный кодВ случае, если вы застряли или запутались, вот весь код для этого проекта:

from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
driver = webdriver.Start()
# открыть URL в браузере
driver.get(‘[https://www.ripndipclothing.com/'](https://www.ripndipclothing.com/'))
time.sleep(3)
# нажать на поле ввода
driver.find_element_by_pro(‘MJWf0CqDwmejUzI’).click_pro()
# ввести содержимое в поле ввода
driver.find_element_by_pro(‘YS2u9iNSLuG2M2J’).type(‘bags’)
# нажать клавишу Enter
driver.switch_to.active_element.type(‘Enter’)
time.sleep(3)
# получить текст элемента
title = list_element.find_element_by_pro(‘B3F6KslWGipSeCj’).text
# получить текст элемента
price = list_element.find_element_by_pro(‘QL0qYq11ZMT0mua’).text
# получить ссылку элемента
link = list_element.find_element_by_pro(‘nV5BucEOFXUQFSn’).get_attribute(‘href’)

Запуск этой программыТеперь, чтобы запустить эту программу, скопируйте код из расширения и сохраните его как файл .py > откройте терминал / командную строку и введите следующую команду:

python3 ПУТЬ/К/ВАШЕМУ/ФАЙЛУ.PY

Или, если вы используете среду разработки, такую как Pycharm, просто запустите программу в ней. Когда вы запустите эту программу, вы увидите, что открывается браузер Chrome, он будет ждать несколько секунд, а затем выведет точки данных в консоль Python!

Поздравляю! Я рекомендую искать способы улучшить этот проект: можно ли добавить интерфейс, где люди могут размещать свои ссылки? Можно ли добавить цикл для парсинга всех ссылок и текста со всех страниц? В противном случае, вам следует гордиться собой за то, что вы прошли через этот учебник!