Парсинг отзывов о продукте на веб-сайте за 3 минуты.

Самый востребованный парсинг электронной коммерции.

В этом анализе мы сначала парсим информацию о одном из самых продаваемых продуктов, а именно Crocs с Amazon. Набор данных содержит отзывы, оставленные покупателями о Crocs, которые они приобрели, а также другие важные детали. Затем мы используем этот набор данных, чтобы ответить на несколько вопросов о продукте.

Что такое парсинг? Просто говоря, это извлечение данных из интернета/веб-сайтов для различных видов анализа. Мы можем лучше понять это, взяв промышленный пример.

Давайте разделим эту полную задачу анализа на 3 разных файлов .ipynb для лучшего понимания и более удобной презентации. Вся эта задача, то есть все три файла, будет опубликована в трех отдельных статьях, чтобы можно было следовать отдельным статьям в соответствии с требованиями. В первом файле, то есть в файле Dataset_Creation, мы парсим следующую информацию со страницы отзывов о продукте - Crocs:

author_name: Содержит имя клиента, который оставил отзыв.
title: Показывает заголовок отзыва.
rating: Показывает рейтинг, присвоенный клиентом продукту в этом отзыве.
review: Показывает отзыв, оставленный клиентом.
size: Показывает размер и цвет приобретенных рецензентом Crocs.
helpfulness: Показывает количество людей, которые нашли отзыв полезным.
review_date: Показывает дату, когда клиент оставил отзыв.

Шаг 1: Чтобы начать извлечение данных из Amazon, мы импортируем некоторые библиотеки Python, которые будут использоваться для этой задачи.

BeautifulSoup (https://www.crummy.com/software/BeautifulSoup/bs4/doc/): Эта библиотека помогает извлекать определенный контент и удалять HTML-разметку. Мы будем использовать эту библиотеку, чтобы получить данные, относящиеся к нашему анализу, из HTML-страницы (т.е. страницы отзывов Amazon).
requests (https://requests.readthedocs.io/en/master/): Эта библиотека помогает отправлять HTTP-запрос и получать в ответ объект ответа, содержащий все данные.
pandas (https://pandas.pydata.org/pandas-docs/stable/): Это одна из самых важных библиотек Python, используемых для задач анализа данных. Мы будем использовать эту библиотеку для создания фрейма данных и сохранения его в файл .csv.

Шаг 2: В этом шаге мы пишем метод для получения данных с использованием тегов Html. Мы начинаем с передачи url в качестве параметра метода. Это будет использоваться для передачи веб-страницы, с которой мы должны получить данные. Функция содержит несколько входных параметров:

headers.
user-agent: Это строка идентификации, которая содержит информацию, такую как версия программного обеспечения, операционная система и т. д.
soup: Это объект, который содержит контент, выглядящий структурированным благодаря методу beautifulsoup.

В цикле for мы находим все элементы, содержащие тег div. Затем мы фильтруем необходимую информацию, используя теги из Html-страницы для разбора.

Шаг 3: Мы пишем цикл for, чтобы вызвать url с использованием метода, определенного в шаге 2. Здесь 'i' обозначает номер страницы, с которой извлекаются данные. Это помогает извлекать данные с нескольких страниц, используя тот же метод.

Шаг 4: Теперь мы преобразуем собранные данные в фрейм данных с помощью библиотеки pandas и даем соответствующие имена столбцов в соответствии с категорией данных.

В качестве последнего шага создания данных мы сохраняем набор данных в файл .csv в локальном хранилище, который мы будем использовать в дальнейшем процессе анализа данных.

Вот как работает парсинг для любой онлайн-платформы. Это действительно просто, когда вы правильно понимаете и следуете вышеуказанному процессу. Изменения в вышеуказанном коде могут помочь получить и другие сегменты информации.

Спасибо за чтение!