CoderCastrov logo
CoderCastrov
Питон

Как парсить данные с Lumin Skin с помощью Python

Как парсить данные с Lumin Skin с помощью Python
просмотров
4 мин чтение
#Питон

Добро пожаловать снова... Пришло время для мужчин взять контроль над своим лицом. Lumin упрощает ежедневные рутины для борьбы с темными кругами под глазами, рубцами от акне, сухой кожей. Мы будем использовать Python, поэтому, если у вас нет опыта работы с Python, я рекомендую освежить свои знания этого языка.

Как всегда, перед парсингом данных с веб-сайта, нам нужно определить конкретные данные, которые мы хотим получить. После просмотра страницы я сразу увидел множество различных данных, которые мы можем получить. В этом проекте мы будем парсить название продукта, ссылку на продукт и цену.

Давайте начнем!

Основное введение, которое можно пропустить, я скопировал из своей другой статьи

Прежде всего, нам понадобится установить Python, убедитесь, что у вас установлен Python и некоторая среда разработки. Selenium pro - это пакет для парсинга веб-страниц, который позволяет нам имитировать веб-браузер с помощью Python, лучше иметь более глубокое понимание парсинга веб-страниц. Пакет Selenium pro - https://pypi.org/project/selenium-pro/

pip install selenium-pro

Установка расширения

Скачайте Selenium Auto Code Generator из Chrome Web Store, вместо копирования и вставки xpath, этот инструмент помогает и упрощает процесс, без необходимости копирования и вставки. Скачать можно здесь - https://chrome.google.com/webstore/detail/selenium-auto-code-genera/ocimgcpcnobcnmclomhhmjidgoiekeaf/related

Давайте начнем!

Теперь, когда мы настроили наше средство разработки Python, давайте откроем пустой скрипт Python. Давайте импортируем пакет Selenium pro, который вы, надеюсь, предварительно установили из предыдущего абзаца (просто выполните pip install selenium-pro). После установки импортируйте следующие пакеты:

from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys

Мы используем браузер Google Chrome в качестве нашего графического интерфейса, но вы можете использовать другие браузеры в Selenium pro, если хотите использовать другой браузер, пожалуйста! Убедитесь, что на вашем компьютере установлен конкретный браузер.

Теперь, внутри Selenium pro, нам нужно определить наш веб-браузер, давайте сделаем это с помощью следующей строки кода:

driver = webdriver.Start()

Я рекомендую запустить весь ваш код до этой точки и проверить, успешно ли код выполняется, если да, то вы практически готовы продолжать!

Пайплайн Lumin Skin

Далее идет интересная часть, нажмите на расширение DK, которое мы установили ранее, и нажмите "начать запись". Это определенно не будет сложной задачей, но к счастью у вас есть я здесь.

Откройте веб-сайт Lumin Skin и добавьте ожидание в 3 секунды для загрузки веб-сайта, а затем выполните поиск ключевого слова на веб-сайте и нажмите Enter. Чтобы добавить событие ожидания, щелкните правой кнопкой мыши на экране и выберите "ожидание" -> 3. Теперь, если вы нажмете на расширение, вы увидите уже имеющийся код в расширении, как показано ниже.

# открыть URL в браузере
driver.get('https://www.luminskin.com/')
time.sleep(2)

Отлично! Это указывает нашему браузеру Chrome в Python на открытие указанного веб-сайта выше, функция "time.sleep(3)" просто говорит Python подождать 3 секунды перед продолжением, это необязательно, но я все равно добавил это.

После этого расширение будет искать идентификатор с помощью driver.find_element_by_pro и выполнит клик(), событие клика выполнится по идентификатору.

# выполнить клик по найденному элементу
driver.find_element_by_pro('FcPgJla6o2M7NOt').click()
# выполнить клик по полю ввода
driver.find_element_by_pro('GgLRbN2cyqgNrYd').click()

а send_keys('face') введет ключевое слово "face", а send_keys(Keys.ENTER) нажмет клавишу Enter.

# ввести текст в поле ввода
driver.find_element_by_pro('rngyliaZDAYrAw7').send_keys('face')
# нажать клавишу Enter
driver.switch_to.active_element.send_keys(Keys.ENTER)
time.sleep(3)

Скопируйте код из расширения и протестируйте код до этого момента...

Получение данных

Отлично! Так что давайте продолжим запись, после ввода ключевого слова на сайте Passion Planner, наведите указатель мыши на заголовок продукта, а затем щелкните правой кнопкой мыши и выберите "Скрапить" -> "Текст", чтобы получить текст продукта.

Теперь, таким же образом, вы можете получить заголовок, ссылку и цену. В расширении ваше действие будет имитировано следующим образом:

# для получения текста элемента
product_name=list_element.find_element_by_pro(‘rCa48Jrk7VGGAGR’).text
 # для получения ссылки элемента
product_link=list_element.find_element_by_pro(‘f3RuvTsVSno8JOV’).get_attribute(‘href’)
 # для получения текста элемента
 price=list_element.find_element_by_pro(‘swTPXdKVO0nhKqU’).text
 # для получения текста элемента
 reviews=list_element.find_element_by_pro(‘YowTHC1rwcJhK0o’).text

Мы закончили... Верьте или нет.

from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
driver = webdriver.Start()
# открыть URL в браузере
driver.get('[https://www.luminskin.com/'](https://www.luminskin.com/'))
time.sleep(2)
# нажать на найденный элемент
driver.find_element_by_pro('FcPgJla6o2M7NOt').click()
# нажать на поле ввода
driver.find_element_by_pro('GgLRbN2cyqgNrYd').click()
# ввести текст в поле ввода
driver.find_element_by_pro('rngyliaZDAYrAw7').send_keys('face')
# нажать клавишу Enter
driver.switch_to.active_element.send_keys(Keys.ENTER)
time.sleep(3)
# получить текст элемента
product_name=list_element.find_element_by_pro(‘rCa48Jrk7VGGAGR’).text
# получить ссылку элемента
product_link=list_element.find_element_by_pro(‘f3RuvTsVSno8JOV’).get_attribute(‘href’)
# получить текст элемента
price=list_element.find_element_by_pro(‘swTPXdKVO0nhKqU’).text
# получить текст элемента
reviews=list_element.find_element_by_pro(‘YowTHC1rwcJhK0o’).text

Запуск этой программы

Чтобы запустить эту программу, скопируйте код из расширения и сохраните его как файл с расширением .py. Затем откройте терминал или командную строку и введите следующую команду:

python3 ПУТЬ/К/ВАШЕМУ/ФАЙЛУ.PY

Или, если вы используете среду разработки, такую как Pycharm, просто запустите программу внутри нее. При запуске этой программы вы увидите, как открывается браузер Chrome, он будет ждать несколько секунд, а затем выведет точки данных в консоль Python!

Поздравляю! Я рекомендую посмотреть, как можно улучшить этот проект: можно ли добавить интерфейс, где пользователи могут размещать свои ссылки? Можно ли добавить цикл для парсинга всех ссылок и текста со всех страниц? В противном случае, вы должны гордиться собой за то, что справились с этим учебником!