CoderCastrov logo
CoderCastrov
Анализ данных

Парсинг данных с веб-сайта Shopee с использованием Data-Miner

Парсинг данных с веб-сайта Shopee с использованием Data-Miner
просмотров
6 мин чтение
#Анализ данных
Table Of Content

    Assalamualaikum wr.wb. друзья-энтузиасты данных......

    При ведении онлайн-бизнеса мы, конечно же, время от времени проводим анализ конкурентов и собираем важную информацию о их продуктах или услугах. Затем мы сохраняем эти данные в таблице, используя Microsoft Excel, Google Sheet или подобные приложения. Этот процесс называется парсингом веб-сайтов.

    Другими словами, парсинг веб-сайтов можно определить как процесс извлечения данных с веб-сайта.


    В этот раз я проведу анализ данных с использованием метода парсинга веб-сайтов на примере сайта Shopee с помощью Data-Miner. Здесь я собираюсь собрать данные со страницы с пижамным набором tie dye, потому что я хочу найти качественный продукт по доступной цене на основе количества продаж.

    Перед тем как начать сбор данных, мы должны скачать приложение Data-Miner. Чтобы открыть его страницу, перейдите по ссылке здесь.

    Когда страница открыта, нажмите "Добавить в Chrome". Затем приложение будет загружено и добавлено в расширения Chrome. Если приложение добавлено, значок Data-Miner появится в правом верхнем углу страницы Chrome, что означает, что приложение было добавлено. Затем вам нужно войти в систему, чтобы получить доступ к приложению. Тогда появится следующий экран.

    После этого мы собираемся получить данные с веб-сайта Shopee. Здесь я хочу найти пижамный набор tie dye. Чтобы открыть его страницу, перейдите по ссылке здесь. Тогда появится следующая страница веб-сайта:

    На приведенном выше изображении показан результат поиска этого продукта. На этой странице есть 50 продуктов. Затем мы открываем приложение Data-Miner, которое находится в правом верхнем углу расширения Chrome. Затем нажмите "Новый рецепт". Результат можно увидеть на следующем экране.

    Тогда появится страница "Создание рецепта" следующего вида:

    На шаге 1 - начало есть два типа страниц: страницы списка, которые используются для парсинга нескольких строк с веб-сайта, и страницы деталей, которые используются для полного парсинга веб-сайта. В этот раз мы выберем страницы списка.

    Затем, на шаге 2 - строки, определяется, какие строки будут использоваться в качестве строк, нажав "Найти" на экране шага 2 - строки, как показано ниже:

    Выберите область на странице Shopee, которая будет представлять собой одну строку. Затем наведите курсор на страницу Shopee, и курсор будет подсвечен оранжевым цветом. Когда вы его найдете, нажмите клавишу "Shift", и появится оранжевый фрейм.

    Затем появятся классы элементов, которые представляют собой настройки. Затем нажмите на столбец классов элементов. На странице Shopee появится зеленый фрейм, который указывает на строки, похожие на те, которые вы выбрали ранее. Затем проверьте, все ли строки выбраны. Если они выбраны, нажмите "Подтвердить" для 50 выбранных продуктов.

    Затем появится экран, если вы уже собрали данные с 50 страниц веб-сайта, как показано ниже:

    Затем на шаге 3 - столбцы происходит парсинг данных для определения столбцов. Введите "название_пижамы" в первый столбец с помощью извлечения текста, и появится следующий экран:

    Затем нажмите "Найти" и наведите курсор на страницу Shopee в области названия продукта, и курсор будет подсвечен оранжевым цветом. Когда вы его найдете, нажмите клавишу "Shift", и появится оранжевый фрейм. Затем появятся классы элементов, которые представляют собой настройки элементов, и мы выберем первый класс элементов. Затем проверьте, все ли строки выбраны. Если они выбраны, нажмите "Подтвердить" для 50 выбранных названий продуктов. Тогда появится следующий экран:

    Для создания столбца цены, проданных товаров и места происхождения используется тот же самый подход, что и для двух предыдущих столбцов. Таким образом, получены следующие результаты создания столбцов:

    На шаге 4 - навигация выполняется проверка навигации. Навигация используется для поиска кнопки перехода на следующую страницу. Тогда появится следующий экран:

    Затем нажмите "Найти" и наведите курсор на страницу Shopee в области кнопки "Далее", и курсор будет подсвечен оранжевым цветом. Когда вы его найдете, нажмите клавишу "Shift", и появится оранжевый фрейм. Затем появятся классы элементов, которые представляют собой настройки элементов, и мы выберем второй класс элементов. Тогда появится следующий экран:

    Если они выбраны, нажмите "Подтвердить", а затем выполните проверку навигации. Если проверка прошла успешно, то на странице Shopee должен быть переход на следующую страницу. Вид, о котором идет речь, показан ниже:

    Шаги 5 - действия и 6 - JS пропускаются, так как изменений нет. Затем на шаге 7 - Сохранить создается рецепт и в поле "Имя рецепта" вводится имя "Shopee Setelan Baju Tidur Piyama". Тогда появится следующий экран:

    Затем нажмите "Сохранить" и одновременно нажмите "Запустить рецепт". Тогда результат можно увидеть ниже:

    На основе изображения выше получены результаты выполнения данных, включая название пижамы, цену, проданные товары и место происхождения. Затем выполняется пагинация, то есть парсинг следующей страницы. Время ожидания должно быть заполнено, чтобы Shopee не заблокировал вас. Мы хотим выполнить парсинг только 5 страниц, затем заполните это значение в соответствующем поле и нажмите "Начать пагинацию", как показано ниже:

    Если все прошло успешно, появится уведомление, как показано ниже:

    Затем данные можно загрузить, нажав "Скачать" и выбрав формат csv, как показано ниже:

    Тогда результат будет следующим:

    Поскольку результат парсинга на изображении выше все еще не очень аккуратный, его нужно отформатировать. В столбце цены есть диапазон цен, который нужно отформатировать, поэтому нужно удалить символы Rp, (-) и (.). Чтобы упростить эту задачу, мы можем использовать функцию "Найти и заменить". Просто найдите символы, которые нужно удалить, оставьте поле "Заменить на" пустым и нажмите "Заменить все". Чтобы увидеть это более ясно, смотрите ниже:

    Следующим шагом является разделение двойной цены путем разделения цены от верхней границы на новый столбец. Сначала вставьте новый столбец. Затем щелкните меню "Данные" на панели инструментов и выберите "Текст по столбцам", как показано ниже:

    Затем разделите с использованием разделителей, таких как пробел, и нажмите "Готово".

    Затем для проданных товаров разделите число и статус продажи таким же образом, как и ранее. Затем будет получен отформатированный набор данных:

    Вот и все для симуляции парсинга страницы с веб-сайта Shopee с использованием Data-Miner. Извините, если что-то не так. Спасибо и надеюсь, что это будет полезно для вас, особенно для энтузиастов данных!!!:)))

    Wassalamualaikum wr.wb.

    Ссылка:

    Cara Mudah Scraping dengan Data-Miner, https://www.youtube.com/watch?v=8AQJn3j7tnI&t=2s