CoderCastrov logo
CoderCastrov
Наука о данных

Как Баахубали стал суперизвестным? (Часть 2)

Как Баахубали стал суперизвестным? (Часть 2)
просмотров
2 мин чтение
#Наука о данных
Table Of Content
    Review_Content from Baahubali CSV

    Теперь мы перейдем к анализу рейтингов. Какие оценки он получил от 1 до 5.

    **Baahubali Movie Highest Ratings**

    Мы видим, что более 60% оценок приходится на 5-звездочные рейтинги. Это означает, что аудитория очень его любит. Мы можем подтвердить это по данным выше. Теперь перейдем к тому, что именно им понравилось.

    Review_content under 5 stars ratings Review_content of 4-star ratings Review_content under 3star ratings

    У нас есть облако из трех слов для разных рейтингов. Давайте разгадаем нашу загадку с помощью переменной рейтинга фильма. Из вышеуказанного облака слов я выбрал несколько слов, которые общие для всех трех облаков. Они также помогают нам сформулировать наш запрос. В начале мы сделали предположение о факторах, которые могут быть причиной популярности. Это слова Prabhas, Baahubali, Kattapa Kills, персонажи, истории, убийство Баахубали, хорошие действия, графика, индийский, первая часть, Раджамоули, действительно.

    Перед заключительной частью я хотел узнать вес каждого слова во всем контенте. Как часто рецензенты использовали эти слова. Для этого мы собираемся проанализировать содержание обзора фильма.

    Length of Review_content

    Таким образом, длина содержания обзора имеет положительную асимметрию. Большая часть длины составляет от 0 до 350 слов.

    Токенизация очищенного сообщения

    Моделирование тем (LDA)

    10 topic from tokenized content The dashboard of 10 topics with their frequency graph

    На панели инструментов выше мы видим, что тема 1 охватывает 49% токенов. Это означает, что слова внутри темы 1 имеют больше сходств с другими 9 темами. Давайте сделаем все более ясным? Теперь мы собираемся посмотреть, какая тема является более доминирующей и насколько она похожа на другие темы с помощью оценки сходства (оценка согласованности).

    Coherence score of Tokenized reviews

    В таблице выше мы видим, что в терминах доминирования среди всех 10 тем. Темы номер 0, 1, 3, 4, 7, 8, 9 имеют точку доминирования между 0,8 и 0,9 с однотипными ключевыми словами. Оценка согласованности составляет 0,39, что означает, что примерно 40% ключевых слов схожи в каждой теме, кроме доминирующих тем. Из-за сходства ключевых слов доминирующие темы будут иметь более высокую оценку согласованности.

    The frame of the success story

    Через наш анализ мы получили некоторые ключевые слова, которые помогут нам сделать выводы о нашей истории. Это слова Baahubali, Prabhas, Kattapa, Kills, first, Indian, Action, watch, good. Но мы будем использовать только те слова, которые соответствуют запросу. Итак, давайте сформулируем ответ на наш запрос.

    Людям это понравилось из-за сюжета "Почему Каттапа убил Баахубали" из первой части Баахубали. Это история, основанная на индийской культуре, которая охватывает сцены любви матери и сына. История любви с полным романтикой и действием. Хорошая химия между Прабхасом и Анушкой. Люди также понравились персонажи, такие как Девсена, Бхалалдев, Амрендар Баахубали, Каттапа и т. д.