CoderCastrov logo
CoderCastrov
Анализ данных

Как работает TrendTopics в Twitter? (3) - Создание панели инструментов и исследование данных

Как работает TrendTopics в Twitter? (3) - Создание панели инструментов и исследование данных
просмотров
5 мин чтение
#Анализ данных

Эта статья является частью трилогии текстов, представляющих мою проектную работу по изучению науки о данных:

1- Контекст,

2- Код, обработка и общий обзор данных

3- Создание панели инструментов и исследование данных


Введение

Ссылка на Контекст

Ссылка на Код, обработка и общий обзор данных

Streamlit (https://www.streamlit.io/)

Для каждого из этих исследований, которые я провожу в области науки о данных, моя цель - опубликовать работающую модель и панель инструментов, которую можно будет использовать в любое время (хотя я до сих пор не смог разместить свою первую работу на GitHub - стыдно #vergonha). Я не хотел просто оставить код на GitHub и этот текст здесь, в Medium. Я хотел что-то осязаемое, что можно было бы видеть и использовать любым пользователем.

Сервер, который я выбрал для выполнения алгоритмов, также мог бы использоваться для этой цели, но, к сожалению, это невозможно в данный момент.

И тогда я наткнулся на Streamlit в своих исследованиях создания панелей инструментов и они также выполнили роль публикации. В качестве средства распространения они публикуют приложения, созданные с помощью этой платформы.

Использование очень простое и не требует опыта разработки интерфейса. Все визуальные компоненты создаются с помощью Python. Конечно, у них есть ограничения, но они развивают эту платформу, создавая новые компоненты и возможности. Это было идеальным решением для того, что мне было нужно.

Поскольку мой скрипт для получения данных из Twitter продолжает работать, я планирую регулярно обновлять данные на панели инструментов.

Что можно утверждать без догадок

Dashboard

При доступе к странице отображаются некоторые графики, учитывающие данные за весь период. Слева можно фильтровать дату, время и хэштег для создания других списков и графиков.

После публикации dashboard я провел некоторые запросы, чтобы получить конкретную информацию о собранных данных:

  1. С ноября 2020 года по 18 февраля 2021 года, за период моих данных до настоящего времени, выборы в США вызвали наибольшую активность в trendtopics.

  2. Самым активным днем для trendtopics является среда.

  3. Время дня с наибольшей активностью, не учитывая день недели, - раннее утро, в 8 часов, и постепенно снижается в течение дня.

  4. Самым активным днем является воскресенье, с большой активностью с самого утра и сосредоточенной в течение нескольких часов.

  5. Рождество и новый год вызывают большую активность, но не так сильно выделяются.

Синий: выборы в США; Оранжевый: событие KPop; Красный: Рождество и Новый год; Зеленый: Big Brother

  1. Трамп и Байден были самыми обсуждаемыми темами в твиттере за этот период, что подтверждает наибольший пик твитов в день выборов.
  1. Хэллоуин был темой, которая сосредоточила наибольшее количество твитов, с наибольшим количеством упоминаний в течение одного часа.
  1. В день 07/02/2021 Superbowl уступил BigBrother по количеству обсуждаемых тем в Twitter в Бразилии.

Помимо этих запросов можно задать много других вопросов:

  • Какой хэштег был самым популярным в каждом месяце?
  • В какое время дня наиболее популярен определенный хэштег в течение нескольких дней?
  • В определенное время дня, какой хэштег наиболее обсуждаемый?

С помощью доступных данных и dashboard можно исследовать и узнать много интересного.

Что делать с этой информацией?

Эта информация, представленная в отдельности, не может формировать абсолютную истину. Особенно учитывая, что для более точных выводов данные этого исследования требуют большего временного интервала, чтобы эффекты выбросов устранить и сделать выводы более достоверными. Однако, некоторые ситуации уже могут быть исследованы с точки зрения маркетинга, например: высокая концентрация воскресенья утром должна быть понята для использования, постоянная активность в течение всего дня в среду может быть значимой и т.д.

Twitter - это социальная сеть, в которой люди высказывают свое мнение, следят за самыми актуальными темами дня и узнают, о чем говорят их подписчики. Чем больше людей говорит об одной теме, тем больше она будет органически набирать популярность. Знание лучших времен для взаимодействия в сети может увеличить вовлеченность и видимость человека, темы или продукта/услуги.

Наблюдения, которые вызвали сомнения в данных

Заголовок может показаться противоречивым, но когда данные показывают что-то совершенно отличное от того, во что вы верили, именно в такой ситуации аналитик данных оказывается в замешательстве.

Вот наблюдения, которые вызвали у меня сомнения:

1. Количество упоминаний трендовых тематик начинает расти после полуночи. Кто сидит в Twitter ночью? Возможно, ночью темы сосредоточены в трендовых тематиках? Следует ли количество твитов в целом этому росту?

2. Огромное количество упоминаний трендовых тематик в воскресенье очень рано. Кто пользуется Twitter в такое время? Почему такой большой объем за такой короткий промежуток времени?

Эти наблюдения заставили меня подумать, что скрипт для сбора данных содержит какую-то несоответствие или что преобразование данных создает проблему. Или что график тепловой карты неправильный. Однако, проанализировав более подробно данные, я убедился, что действительно существует большой объем, подтверждающий оба этих случая.

В любом случае, даже с учетом данных, которые я собрал, эти наблюдения все равно кажутся довольно странными. Вероятно, дополнительная связанная информация о трендовых тематиках сможет объяснить это. И, возможно, здесь есть очень ценная информация, так как это неожиданная ситуация.

Краткосрочный план

Чтобы не задерживать публикацию этого исследования еще больше, некоторые детали были исключены из области и будут пересмотрены в ближайшее время:

  • Улучшить внешний вид графиков, лучше настроить цвета, оси и представление чисел
  • Добавить новые графики, таблицы и фильтры в макет панели инструментов

Перспективы развития

  • Улучшить визуализацию графиков, лучше изучить возможные настройки и, возможно, использовать другие библиотеки
  • Создать скрипт, который автоматически обновляет панель инструментов данными, сгенерированными в AWS
  • Сравнить трендовые темы с телевизионной программой
  • Классифицировать трендовые темы по категориям для увеличения аналитической мощности

Заключение

Использование Streamlit очень просто. Все еще есть некоторые ограничения, и разработчики постоянно развивают эту платформу, но это отличный первый шаг.

Важно отметить ограничения исследования с точки зрения профиля использования Twitter. Я опирался только на темы trendtopics. Поведение может отличаться, когда речь идет о общем количестве твитов или подписчиков конкретного профиля или темы.

Связь trendtopics с телевидением оказалась гораздо слабее, чем я предполагал. Во всех исследованиях, которые я провел на панели инструментов, только BigBrother и Superbowl выделялись. Футбол появляется в различных моментах, но разбросан по разным хэштегам с именами игроков или команд. Журналистские события и повседневные события постоянно привлекали внимание в этом временном окне, которое я анализировал, не связанное с конкретной телепрограммой.

Для более детального изучения необходим большой промежуток времени. Таким образом, побочные эффекты выбросов будут рассеиваться.

Несмотря на все эти оговорки, удалось подтвердить, что в данных Twitter есть много полезной информации для исследования. Классификация хэштегов по темам принесет большую ценность и понимание.

Сбор данных будет продолжаться, и я буду регулярно обновлять анализы, чтобы понять, сохраняется ли такое поведение.