CoderCastrov logo
CoderCastrov
Парсер

Парсинг данных обзоров в приложении Gramedia Digital

Парсинг данных обзоров в приложении Gramedia Digital
просмотров
1 мин чтение
#Парсер
Table Of Content

    Эта статья рассказывает о том, как собирать данные обзоров в приложении Gramedia, которое предоставляет различные типы чтения, такие как журналы, газеты и книги в цифровом формате, из разных категорий, таких как бизнес, сплетни, дизайн, художественная литература, детская литература и т. д.

    Для выполнения парсинга данных я использую Google Colab "https://colab.research.google.com/" для процесса сбора данных.

    Первое, что нужно сделать, это зайти на "https://colab.research.google.com/" и создать новую записную книжку.

    Второе, установить google play scraper,

    !pip install google-play-scraper

    Третье, импортировать необходимые библиотеки,

    from google_play_scraper import app import pandas as pd import numpy as np

    Четвертое, скопировать идентификатор приложения, открыв Play Store в браузере, а затем найти Nusaresearch, как показано на рисунке

    com.appsfoundry.scoop

    Пятое, чтобы получить все обзоры, доступные в Play Store, используйте следующий скрипт

    from google_play_scraper import Sort, reviews_all us_reviews = reviews_all( ‘com.appsfoundry.scoop’, sleep_milliseconds=0, # по умолчанию 0 lang=’id’, # по умолчанию ‘en’ country=’id’, # по умолчанию ‘us’ sort=Sort.NEWEST, # по умолчанию Sort.MOST_RELEVANT )

    lang и country могут быть изменены в соответствии с потребностями сбора данных, чтобы загрузить обзоры из разных стран/языков, можно использовать ISO-Code. sort может быть настроен в зависимости от самых новых обзоров (NEWEST), наиболее релевантных (MOST_RELEVANT) или рейтинга (RATING).

    Шестое, отображение собранных данных

    df_busu = pd.DataFrame(np.array(us_reviews),columns=[‘review’]) df_busu = df_busu.join(pd.DataFrame(df_busu.pop(‘review’).tolist())) df_busu.head()

    Седьмое, фильтрация данных, выбирая несколько нужных столбцов данных

    df_busu[[‘userName’, ‘score’,’at’, ‘content’]].head()

    Восьмое, экспорт результатов парсинга в формате csv или xlsx

    my_df.to_csv(“scraping data.csv”, index = False)

    для экспорта в формате Excel используйте to_excel и переименуйте формат данных в "Имя файла.xlsx"

    Наконец, для сохранения на локальном диске нажмите "Скачать", как показано на рисунке ниже

    Источники информации: