Парсинг данных обзоров в приложении Gramedia Digital

Эта статья рассказывает о том, как собирать данные обзоров в приложении Gramedia, которое предоставляет различные типы чтения, такие как журналы, газеты и книги в цифровом формате, из разных категорий, таких как бизнес, сплетни, дизайн, художественная литература, детская литература и т. д.

Для выполнения парсинга данных я использую Google Colab "https://colab.research.google.com/" для процесса сбора данных.

Первое, что нужно сделать, это зайти на "https://colab.research.google.com/" и создать новую записную книжку.

Второе, установить google play scraper,

!pip install google-play-scraper

Третье, импортировать необходимые библиотеки,

from google_play_scraper import app import pandas as pd import numpy as np

Четвертое, скопировать идентификатор приложения, открыв Play Store в браузере, а затем найти Nusaresearch, как показано на рисунке

com.appsfoundry.scoop

Пятое, чтобы получить все обзоры, доступные в Play Store, используйте следующий скрипт

from google_play_scraper import Sort, reviews_all us_reviews = reviews_all( ‘com.appsfoundry.scoop’, sleep_milliseconds=0, # по умолчанию 0 lang=’id’, # по умолчанию ‘en’ country=’id’, # по умолчанию ‘us’ sort=Sort.NEWEST, # по умолчанию Sort.MOST_RELEVANT )

lang и country могут быть изменены в соответствии с потребностями сбора данных, чтобы загрузить обзоры из разных стран/языков, можно использовать ISO-Code. sort может быть настроен в зависимости от самых новых обзоров (NEWEST), наиболее релевантных (MOST_RELEVANT) или рейтинга (RATING).

Шестое, отображение собранных данных

df_busu = pd.DataFrame(np.array(us_reviews),columns=[‘review’]) df_busu = df_busu.join(pd.DataFrame(df_busu.pop(‘review’).tolist())) df_busu.head()

Седьмое, фильтрация данных, выбирая несколько нужных столбцов данных

df_busu[[‘userName’, ‘score’,’at’, ‘content’]].head()

Восьмое, экспорт результатов парсинга в формате csv или xlsx

my_df.to_csv(“scraping data.csv”, index = False)

для экспорта в формате Excel используйте to_excel и переименуйте формат данных в "Имя файла.xlsx"

Наконец, для сохранения на локальном диске нажмите "Скачать", как показано на рисунке ниже

Источники информации: