CoderCastrov logo
CoderCastrov
Анализ данных

Что определяет рейтинг аудиокниги?

Что определяет рейтинг аудиокниги?
просмотров
4 мин чтение
#Анализ данных
Table Of Content

    GitHub

    В 2016 году Wall Street Journal написала, что аудиокниги являются самым быстрорастущим форматом в издательской индустрии. Чтобы понять этот сегмент издательской индустрии, я проанализировал англоязычные аудиокниги, чтобы определить, больше ли общий рейтинг аудиокниги определяется исполнением озвучивающего актера или историей. Данные взяты с веб-сайта Audible.com, собранные в 2016 году.

    Audible.com - это технологическая компания, которая производит, продает и маркетингует аудиокниги. Аудиокниги от Audible покупаются через его онлайн-платформу и могут быть прослушаны или загружены через его собственное приложение. Audible был основан в 1995 году и был приобретен за 300 миллионов долларов компанией Amazon в 2008 году. Библиотека Audible на английском языке насчитывает более 200 000 аудиокниг. Эта относительно долгая история и обширный каталог делают Audible хорошим источником данных для понимания аудиокниг.

    С помощью фреймворка парсинга Scrapy я собрал данные с веб-сайта Audible о всех англоязычных аудиокнигах, доступных в январе 2016 года. Собранные данные показаны ниже.

    Скрапер был настроен на начало со страницы, на которой перечислены ссылки на аудиокниги. Затем следовала каждая ссылка на аудиокнигу, и данные загружались и возвращались на исходную страницу. Ссылка на следующую страницу следовала с использованием рекурсии до достижения последней страницы. С использованием этого процесса была создана таблица из ~203 000 аудиокниг. Из них ~42 000 аудиокниг не имели ни одного отзыва. Еще несколько сотен имели только общие отзывы и не имели оценок для рейтингов истории или исполнения. В графиках с отзывами включены только книги с полными отзывами, в то время как весь набор данных включен в графики, характеризующие данные.

    Распределение общего рейтинга, рейтингов исполнения и рейтингов истории показано ниже. Самый распространенный рейтинг для аудиокниги - 4 для всех категорий. Второй по популярности - 5 для рейтинга исполнения и между 4 и 5 для общего рейтинга. Это указывает на то, что рейтинги не равномерно распределены, и низкие рейтинги не присваиваются часто. Таким образом, большинство оцененных книг должны быть смещены в сторону высоких оценок. Поскольку люди обычно не покупают книги, которые, по их мнению, им не понравятся, это неудивительно.

    Количество оценок на книгу показывает резкий пик на 1. Из ~150 000 оцененных книг на Audible большинство имеют только одну оценку. Несколько оценок на книгу объясняют сильные пики в распределении оценок (выше). Обратите внимание, что распределение оценок (ниже) исключает все оценки свыше 1500 для большей ясности.

    Длина книги может быть очень важной, более длинные книги могут иметь более низкий рейтинг, потому что их продают реже. Я построил график плотности общего рейтинга по длине в минутах (ниже), удалив выбросы (2 стандартных отклонения от средней длины). Из графика легко видеть, что более длинные книги не имеют более низкий рейтинг, чем более короткие книги. Тенденция обратная, более длинные книги имеют более высокий рейтинг, чем более короткие книги.

    График плотности (более интенсивный синий - большее число) общих рейтингов, построенный по отношению к длине книги.

    Мы можем построить общий рейтинг по рейтингу исполнения и рейтингу истории, используя график плотности, чтобы изучить взаимосвязь между этими переменными. Как видно ниже, существует очень явная линейная зависимость между этими переменными. Эта корреляция указывает на то, что история и исполнение коррелируют с общим рейтингом. Это можно подтвердить коэффициентами корреляции Пирсона: общий-исполнение 0,81 и общий-история 0,88. Можно предварительно заключить, что хотя оба фактора важны, история коррелирует с общим рейтингом сильнее и, следовательно, является более важной.

    Чтобы дальше изучить достоверность результатов, я проверил корреляцию между рейтингами исполнения и рейтингами истории. Это значение также показывает сильную линейную зависимость и имеет высокий коэффициент корреляции 0,78. Эта корреляция указывает на то, что нельзя сделать определенное заключение на основе корреляции с одним из факторов, так как одна переменная может определять другую.

    Чтобы понять, что является более важным, нам нужно рассмотреть случаи, когда один фактор остается постоянным, а другой может меняться. Один из методов - найти книги с несколькими озвучивающими актерами. В этих книгах истории не меняются, но озвучивающие актеры разные. Я изучил 158 книг с несколькими озвучивающими актерами. У этих книг общий рейтинг, рейтинг истории и рейтинг исполнения практически одинаковы для каждой книги, но различаются только с учетом озвучивающего актера. В немногих случаях рейтинги расходятся. Из этих данных можно сделать вывод, что восприятие истории определяется исполнением, и рейтинг исполнения определяет как общий рейтинг, так и рейтинг истории. Писателям следует тщательно выбирать озвучивающих актеров, чтобы убедиться, что их истории имеют рейтинг, который они заслуживают, или даже лучше, чем они заслуживают. Однако, поскольку у плохих историй, вероятно, нет нескольких озвучивающих актеров, трудно определить, какое влияние может оказать озвучивающий актер на среднюю историю.

    Код для этого парсинга доступен на GitHub. Не стесняйтесь делать свой собственный парсинг и делиться результатами!