CoderCastrov logo
CoderCastrov
Анализ данных

Анализ социальных медиа

Анализ социальных медиа
просмотров
5 мин чтение
#Анализ данных

Анализ твитов для получения информации и ответов на бизнес-вопросы

Можно ли использовать социальные медиа (Twitter) для продвижения новых кампаний или продуктов?

Введение

Социальные медиа стали важным инструментом для создания глобальной деревни для всех. Это место, где люди делятся своим мнением о событиях, которые происходят. Цель этой статьи - рассказать о том, как извлечь данные из Twitter и выполнить их базовый анализ, чтобы ответить на вопросы, такие как, какие хэштеги чаще всего используются среди знаменитостей? Кто является наиболее упоминаемым пользователем Twitter? и т. д. Я объясню, как я получил данные и передам вам свои результаты. Оставайтесь на связи...

Подготовка данных

В этой статье я стремлюсь просветить и обратить ваше внимание на то, как Twitter может быть использован и используется для продвижения кампаний продуктов и мероприятий. В частности, я сосредоточился на известных пользователях Twitter в Африке, включая политических лидеров и знаменитостей. Данные, используемые в работе, состояли из влиятельных твитов, которые были собраны с помощью парсера Twitter. Эти пользователи были выбраны на основе нескольких метрик, включая:

  1. Оценка популярности = Количество ретвитов + Количество лайков (за твит)

  2. Оценка охвата = Количество подписчиков - Количество пользователей, на которых они подписаны

  3. Оценка актуальности = Количество размещенных статусов + Оценка популярности + Оценка охвата

С помощью этих данных были получены ответы на вопросы, такие как самая популярная знаменитость в Африке на основе размещенных твитов, самые популярные обсуждаемые темы и кто об этом говорит и т. д. Был сделан вывод, что Twitter в качестве социальной сети может быть использован для продвижения кампаний и продуктов.

Твиты были собраны с помощью интерфейса программирования приложений (API), предоставленного Twitter, и библиотеки Tweepy для извлечения твитов, размещенных влиятельными пользователями. Извлеченные твиты стали основой данных. Каждому твиту было присвоено множество связанных с ним элементов, таких как количество лайков, количество ретвитов, идентификатор твита, количество ответов и т. д. Эта информация позволила мне проводить анализ и отвечать на некоторые актуальные вопросы, такие как у какого влиятельного пользователя было больше всего размещенных твитов и сколько лайков и ретвитов было на таком твите. Данные также содержат геолокацию, что позволяет группировать твиты по отдельным регионам Африки в качестве континента, и я смог определить, о чем говорил влиятельный пользователь в таких местах. Данные состоят из 7099 твитов как от знаменитостей, так и от политических лидеров, при этом у лидеров 1729 твитов, а у знаменитостей - 5370 твитов. Каждый твит сопровождается большим количеством информации, после обработки и очистки твитов было использовано 23 различных параметра, объясняющих, что содержится в тексте твита, из какого места он был размещен и т. д. для анализа.

Очистка данных и анализ

Было использовано регулярное выражение для извлечения твиттер-аккаунтов со веб-страницы после того, как страница была спарсена и отформатирована с помощью библиотеки для парсинга веб-страниц Beautiful Soup.

Regex Code to get twitter handles The request code to get web pages based on html element Before Preprocessing After Processing and cleaning

Результаты

Анализировались твиты влиятельных людей, оценивались и взвешивались для ответа на вопрос бизнеса "можно ли использовать Twitter для продвижения кампании". Влиятельные люди использовали 829 хэштегов, и наиболее часто встречающимся хэштегом был COVID 19. Большинство твитов было отправлено из Южной Африки, примерно 75% твитов происходило из Южной Африки, города Йоханнесбург. Всего было 34 лидера и 91 известный влиятельный человек, всего 125.

Наибольшее количество твитов было опубликовано на странице новостей News24, но по сравнению с другими влиятельными людьми с меньшим количеством твитов, у нее было значительно меньше популярности и охвата.

В среднем, если твит содержит хэштеги COVID19 и был опубликован пользователем GautengProvince, он будет иметь 106 ретвитов и 191 лайк. Это показывает, как люди реагируют на твиты от GautengProvince, когда речь идет о COVID19, и также показывает, насколько популярной является тема COVID19. Также, если твит использует хэштег Nigeria и был опубликован пользователем MadeInAfrica, он будет иметь 4 ретвита и 11 лайков. Это означает, что #Nigeria не является общим словом, учитывая количество подписчиков MadeInAfrica и прошлые твиты, не содержащие такой хэштег. Большинство африканцев не используют хэштеги в своих твитах, например, MBuhari, президент Нигерии, использовал только один хэштег в своих последних 300 твитах, и это было в День демократии 12 июня 2020 года. Всемирная организация здравоохранения (ВОЗ) имеет наивысший показатель охвата, но не является самой популярной, лидером в этом рейтинге является MagufuliP.

Заключение

Top 10 лидеров в Африке

Из раздела анализа и результатов ясно, что Twitter имеет большое влияние на продвижение бизнес-кампаний, когда используются правильные люди с правильными словами. Информация быстро и широко распространяется по всему миру благодаря таким инструментам, как социальные сети, и использование правильных хэштегов от популярного инфлюенсера позволит быстро распространить такое сообщение. Правильные хэштеги сделают инфлюенсера популярным в считанные секунды, и инфлюенсеры, такие как развлекатели, например Тревор Ноа, имеют очень высокий популярность и охват, несмотря на то, что у него значительно меньше общих твитов по сравнению с такими популярными аккаунтами, как News24 или ВОЗ, и Тревор Ноа не использует хэштеги. Использование хэштегов в твитах не означает, что твит станет популярным, и это не увеличивает популярность инфлюенсера. Для более глубокого и подробного анализа требуется больше данных. Данные, такие как количество ответов, информация о людях, оставляющих комментарии к твитам и их содержание, позволят нам более подробно понять, как люди реагируют на твиты инфлюенсера. Также важным фактором, который следует учесть для более глубокого анализа, являются хэштеги, основанные на том, что чувствует инфлюенсер или что является трендом в конкретном месте.

Полный ноутбук с анализом и другой информацией можно найти в этом репозитории GitHub.

Спасибо и удачи!