CoderCastrov logo
CoderCastrov
Парсер

Парсинг веб-сайта IMDB с помощью R Studio

Парсинг веб-сайта IMDB с помощью R Studio
просмотров
5 мин чтение
#Парсер

Привет всем!! Ассаламу алейкум ва рахматуллахи ва баракатух..

Ранее я уже поделился с вами инструкцией о том, как парсить веб-сайт аниме-фильмов с помощью R Studio, которую вы можете найти по ссылке здесь. И сегодня я снова буду парсить веб-сайт, а именно IMDB, с фильмами, отсортированными по популярности в период с 2015 по 2019 год.

На этот раз я снова воспользуюсь программным обеспечением R Studio для парсинга веб-сайта. А почему мы используем R Studio? Вот ответ: ручной парсинг займет довольно много времени и часто подвержен ошибкам, а с помощью R Studio парсинг будет быстрее и точнее.

Кстати, вы уже знаете, что такое парсинг веб-сайта? Парсинг веб-сайта - это процесс извлечения или сбора данных с веб-сайта.


Подготовка к парсингу веб-страницы в R Studio


Шаги для выполнения парсинга веб-страницы

  1. Введите адрес веб-сайта, который вы хотите спарсить. В этом примере мы будем парсить веб-сайт imdb, отсортированный по популярности фильмов в 2015 году.

Результат будет выглядеть следующим образом,

  1. Извлеките данные из HTML-страницы.

Прежде чем извлекать данные, вам необходимо найти местоположение данных с помощью инструмента SelectorGadget. Инструкции по его установке и использованию можно найти здесь.

a. Длительность фильма

  • Введите местоположение данных о длительности фильма, найденное с помощью SelectorGadget (.runtime).

Результат будет выглядеть следующим образом.

  • Извлеките данные с веб-страницы в текстовом формате.

Результат будет выглядеть следующим образом,

  • Очистите данные с помощью команды "gsub", как показано ниже.

Результат будет выглядеть следующим образом,

удаление «min»
  • Преобразуйте данные из текстового формата в числовой (в зависимости от типа данных).

Результат будет выглядеть следующим образом,

b. Жанр фильма

Результат будет выглядеть следующим образом,

чтение данных о жанре с веб-страницы извлечение данных в текстовом формате удаление \n удаление пустых пробелов удаление второго и третьего жанра преобразование из текстового формата в факторный

c. Рейтинг фильма

Результат будет выглядеть следующим образом,

чтение данных о рейтинге с веб-страницы извлечение данных в текстовом формате преобразование текстового формата в числовой

d. Прибыль

Результат будет выглядеть следующим образом,

чтение данных о прибыли с веб-страницы извлечение данных о прибыли в текстовом формате удаление символа «M» удаление символа доллара $ проверка количества прибыли и заполнение отсутствующих значений NA преобразование текстового формата в числовой
  1. Проверьте количество данных для каждой переменной.

Результат будет выглядеть следующим образом,

данные совпадают, поэтому все верно
  1. Соберите данные в один фрейм данных.

Результат будет выглядеть следующим образом,

  1. Некоторая визуализация полученных данных.

Результат будет выглядеть следующим образом,

Для выполнения парсинга IMDB в 2016, 2017, 2018 и 2019 годах процедура аналогична парсингу в 2015 году, описанной выше. Единственное отличие заключается в адресе веб-сайта и отсутствии данных о прибыли для каждого года. Ниже приведены соответствующие синтаксические различия.

Синтаксис адреса веб-сайта

2016 год 2017 год 2018 год 2019 год

Синтаксис отсутствующих данных о прибыли

2016 год 2017 год 2018 год 2019 год

Визуализация

2016 год 2017 год 2018 год 2019 год

Некоторые анализы, которые можно сделать на основе веб-парсинга

Из представленной выше визуализации можно сделать следующие выводы: каждый год фильмы жанра "экшн" с высоким рейтингом имеют самый высокий доход (брутто). Это позволяет сделать вывод о том, что предпочтения зрителей в просмотре фильмов не сильно меняются от года к году, и они все еще предпочитают фильмы жанра "экшн". Кроме того, после жанра "экшн" следуют фильмы жанра "анимация".

  1. Дайте рекомендации производителям фильмов для последующей продукции.

Исходя из анализа в пункте 1, можно рекомендовать производителям фильмов учитывать жанр при создании следующего фильма, поскольку в период с 2015 по 2019 годы жанр "экшн" имел самый высокий доход и достаточно высокий рейтинг. Это означает, что у жанра "экшн" есть больше шансов на самый высокий доход среди других жанров в будущих годах.