CoderCastrov logo
CoderCastrov
Rstudio - Рстудио

Парсинг веб-сайта с помощью RStudio для определения любимого жанра на веб-сайте IMDb в 2016 году

Парсинг веб-сайта с помощью RStudio для определения любимого жанра на веб-сайте IMDb в 2016 году
просмотров
2 мин чтение
#Rstudio - Рстудио
Table Of Content

    Assalamualaikum, друзья!

    На этот раз я поделюсь своим опытом извлечения данных из веб-сайта с помощью пакета "rvest" в RStudio.

    Мы будем извлекать данные с веб-сайта IMDb (Интернет-база данных фильмов), которые представлены в виде списка, упорядоченного по популярности.

    Если вы хотите увидеть список популярных фильмов за 2016 год, вы можете использовать ссылку https://www.imdb.com/search/title/?title_type=feature&release_date=2016-01-01,2016-12-31&count=100&view=advanced, или если вы хотите найти фильмы других годов, просто измените год в ссылке.

    Для начала подготовьте пакеты xml2 и rvest в RStudio.

    Затем введите ссылку на веб-сайт в следующий синтаксис для данных с этого веб-сайта.

    Затем, когда вы будете извлекать данные о доходе и жанре с веб-сайта, используйте RStudio.

    Используйте селектор гаджет, который уже скачан.

    Затем перейдите на страницу веб-сайта, которую вы хотите использовать. В этот раз мы сначала будем использовать данные о доходе.

    Затем используйте RStudio для продолжения.

    Затем появится следующий вывод.

    Оказывается, что только 92 фильма имеют данные о доходе, поэтому давайте попробуем найти, какой фильм не имеет данные о доходе.

    Затем выполните следующую команду.

    Тогда результат будет следующим.

    Затем для извлечения данных о жанре можно использовать следующий синтаксис.

    Это приведет к следующему output:

    Затем,

    Затем,

    Затем,

    После завершения соберем данные в виде фрейма данных.

    Результат:

    Затем мы создадим визуализацию полученных данных с помощью следующей команды.

    Результат:

    и также

    Из визуализации выше видно, что фильмы жанра "Action" получают наибольший доход, а фильмы жанра "Crime" получают наименьший доход.

    Это все для парсинга веб-сайтов. Надеюсь, это будет полезно для всех вас, друзья.

    Основная ссылка:

    Hakim, R. F. (2019, September 25). Web Scraping dengan R. From Medium.com: https://medium.com/@986110101/web-scraping-dengan-r-53d07fb81fc9