[Free-Random] Анализ подписчиков аккаунта Twitter ‘@AgusMagelangan’

В последние дни я задумался о анализе данных. Таким образом, у меня появилось много свободного времени, чтобы изучить, что такое данные, как их получить и как интерпретировать с помощью Python и Google Sheets. Я даже посетил вводный курс по визуализации данных на Pacmann. Ура!

Поскольку я также люблю проводить время, пролистывая Twitter, и, конечно же, у этой платформы есть API, чтобы делать запросы на то, что мы хотим (хотя с некоторыми ограничениями), я начал собирать данные с аккаунта Twitter ‘@AgusMagelangan’.

Причина в том, что он является индонезийским создателем контента с огромным количеством подписчиков на Twitter; на момент написания этого текста их число составляет 121,4 тыс.

Исходя из этого, я хочу узнать некоторые значения, связанные с аккаунтом пользователя Twitter, такие как количество подписчиков, количество опубликованных ими твитов на данный момент, дату создания аккаунта, местоположение и так далее.

Что ж, давайте начнем с того, что я получил из этого.

Методы

Я использовал библиотеку Tweepy для доступа к API Twitter. Существует множество руководств по установке, использованию и примерам кода, связанных с доступом к API Twitter.

Я извлек 10 000 подписчиков из 121,4 тыс., не индексируя их, просто случайным образом, как получилось при запуске кода.

Из этого списка подписчиков я создал столбец, состоящий из идентификатора пользователя, имени пользователя @, имени аккаунта, даты создания, местоположения, подтверждения аккаунта, количества подписчиков, количества твитов и биографии для 10 000 полученных аккаунтов.

Да! У меня теперь есть набор данных из 9 столбцов и 10 000 строк в формате CSV! Это самый большой объем данных, с которым я работал до сих пор. Погрузимся в него!

Как

После сбора исходных данных я открыл Google Sheets, где добавил некоторые столбцы и поля, связанные со значениями. Я преобразовал столбец IsVerified в строку, потому что исходное значение было логическим. В этом анализе я проигнорировал столбец Bio, так как он не имеет никакой связи с самим анализом.

_Вуаля! _Мой набор данных теперь намного более читаем. Пришло время поиграть с МОИМ-СОБСТВЕННЫМ-СЛУЧАЙНЫМ-АНАЛИЗОМ.

Сначала я отсортировал столбец Follower, чтобы показать сначала высокие значения, затем сделал сводку по заданному интервалу. От 0 до 10, от 11 до 100, от 101 до 1000, от 1001 до 10000 и более 10000.

Затем я отсортировал столбец TweetCount с использованием тех же методов, что и для Follower, но с другими интервалами: от 0 до 100, от 101 до 1000, от 1001 до 10000 и более 10000.

Как вы могли заметить, есть столбец с названием CreatedAt, который содержит точную дату и время в формате UTC, когда был создан идентификатор пользователя, например: 2011-07-16 10:46:33+00:00. Поскольку эти значения для меня избыточны, я сократил их до формата 2011-07-16. Затем я отсортировал их с помощью тех же методов, чтобы узнать, из какого года приходят подписчики.

В четвертой части я хочу узнать местоположение каждого подписчика. Однако это значение зависит от того, заполнили ли подписчики местоположение в своих настройках аккаунта. Поскольку это нужно для общей картины, я считал, что это возможно, хотя было много пустых значений.

После того, как я получил нужные данные, я начал выполнять простую статистику. Просто фильтрую данные, считаю и записываю значения. Тот же метод используется для четырех элементов, о которых я упомянул выше.

Результат

Для количества подписчиков, из 10000 из 121,4 тыс. подписчиков, распределение выглядит следующим образом:

Мы видим, что, возможно, 4162 аккаунта являются вторичными или неактивными, так как у них мало подписчиков. И есть 32 (с большой вероятностью их больше), у которых количество подписчиков превышает 10000.

Вторая часть - TweetCount:

Распределение твитов склонно быть равным значениям 101-1000 и 1001-10000. Но большинство аккаунтов твитят не более 100 раз. Мы можем объяснить это тем, что многие люди предпочитают пролистывать ленту на Twitter, а не писать твиты.

В третьей части я попытался создать распределение даты создания аккаунта. См. рисунок ниже:

Эта диаграмма направлена на получение чего-то вроде возраста подписчиков. Логически, аккаунт, созданный в 2007 году, должен принадлежать человеку, старше 20 лет. Удивительно, что большинство подписчиков были созданы в 2022 году, или, другими словами, восемь месяцев назад. К сожалению, я пока не знаю, как проверить, является ли аккаунт ботом или настоящим человеком.

Перейдем к четвертой части - распределение местоположения подписчиков:

В этой части, как я уже упоминал ранее, сложно отобразить местоположение подписчиков, так как это значение должно быть заполнено в их настройках. Я разделил значения по местоположению, содержащему определенные слова. Например, местоположение подписчиков, содержащее ‘Jawa Tengah — Indonesia’, становится срезом с словами, содержащими только ‘Indonesia’. Но в конце концов мы видим, что 16,9% выборки подписчиков находятся в Индонезии на основе их профилей.

Помимо четырех элементов, которые я сделал, я также выяснил некоторые «самые» части, которые, как мне кажется, интересно поделиться. Из этой выборки, с помощью простой системы сортировки, я узнал, кто занимает топ-5 по определенным значениям:

Да! Самый старый подписчик, созданный в 2007 году, - ‘@AnangPradipta’, находится в регионе столицы Джакарта, аккаунт не подтвержден, что означает, что рядом с ним нет галочки синего цвета, у него 3904 подписчика и 42142 твита. Больше всего подписчиков и наибольшее количество твитов у ‘@inilahdotcom’, аккаунт создан в 2009 году, находится в Джакарте, Индонезия, не подтвержден, у него 366024 подписчика и 848741 твит. Далее, из 10000 выборки, только один аккаунт подтвержден с именем пользователя ‘@ChangeOrg_ID’, аккаунт создан в 2012 году, находится в Индонезии, у него 56695 подписчиков и 14791 твит.

Наконец, поскольку это только мои мысли и не связано ни с какой академической деятельностью, я здесь подтверждаю, что этот текст не предназначен для оскорбления или обвинения кого-либо. Я открыт для обсуждения, связанного с извлечением данных из Twitter с помощью Python и визуализацией данных. Я хотел бы исследовать больше о данных.

Надеюсь, вы получили новые знания после прочтения этого. Табик!