CoderCastrov logo
CoderCastrov
Python

Картирование данных с использованием Twitter API

Картирование данных с использованием Twitter API
просмотров
4 мин чтение
#Python

Использование платформы Twitter в качестве источника данных Создание облака слов для самых часто употребляемых слов Для руководства перейдите сразу к разделу Давайте начнем

Twitter является одной из популярных социальных сетей в мире. Платформа, созданная Джеком Дорси @jack в 2006 году в США, изначально называлась twttr. Twitter имеет простой и понятный интерфейс. Несмотря на ограничение в 280 символов на каждый пост, у него есть свое место среди пользователей, особенно среди молодежи.

Twitter изначально назывался twttr

Тренды - это функция, которая является основным преимуществом этой платформы. Чтобы удовлетворить потребности пользователей в социальных медиа, эта платформа постоянно добавляет новые функции, такие как Fleets и Space. Fleets - это функция, которая позволяет пользователям добавлять посты, которые исчезнут через 24 часа. А Space - это место для проведения прямых голосовых трансляций, где каждый может быть и спикером, и просто слушателем.

Кроме того, у Twitter есть инструменты разработчика, такие как Twitter API. С помощью этих инструментов разработчик может собирать данные с платформы с помощью предоставленного Twitter API. Пользователю достаточно зарегистрироваться с учетной записью Twitter, и он сможет пользоваться доступными функциями.


Давайте начнем.


Необходимые инструменты

Twitter API Tweepy NLTK Gephi Google Colab


Как зарегистрироваться в Twitter API.

Страница для подачи заявки на получение API Twitter (док: Личное)

https://developer.twitter.com/en/apply/user.html

Перейдите по указанной ссылке или нажмите здесь, чтобы зарегистрироваться в Twitter API. Регистрация может быть выполнена с использованием личной учетной записи или альтернативной учетной записи, если вы хотите.

(док: Личное)

Выберите подходящий вариант. Поскольку этот учебник является заданием для университета, я выбрал Academic > Student.

Убедитесь, что вы хорошо отвечаете на указанные вопросы, чтобы избежать задержки в процессе верификации со стороны Twitter.

Иллюстрация панели инструментов (док: Личное)

После успешной регистрации аккаунта начните создавать приложение, нажав Create Project на странице dashboard

Созданное приложение (док: Личное)

Созданные приложения можно найти в разделе overview


Получение ключа API, секретного ключа API, токена доступа и секретного токена доступа

Чтобы получить их, перейдите на страницу вашего приложения по следующему адресу:

https://developer.twitter.com/en/portal/projects-and-apps

Перейдите в раздел "Keys and tokens" (Ключи и токены), как показано на изображении.

Получение необходимых ключей

В разделе "Consumer keys" (Ключи потребителя) вы получите следующие ключи, нажав кнопку "Regenerate" (Сгенерировать):

Ключ API Секретный ключ API

А в разделе "Authentication Tokens" (Токены аутентификации) вы получите следующие ключи:

Токен Bearer Токен доступа Секретный токен доступа

Убедитесь, что вы записали эти токены, так как они могут быть открыты только один раз.

Ой, я случайно закрыл окно, не сохранив их. Что делать?

Не волнуйтесь, вы можете сгенерировать новые токены, но имейте в виду, что старые токены будут недействительными и заменены новыми.

Установка плагина

Убедитесь, что у вас установлена программа Gephi.

Перед началом обработки данных установите плагин TwitterStreamingImporter в меню Tools > Plugin

Вид после установки.

Откройте Window > Twitter Streaming Importer, чтобы открыть окно Twitter Streaming Importer.

Появится окно Twitter Streaming Importer.

Начало сбора данных из Twitter

Нажмите на кнопку "Credentials" в меню Twitter Streaming Importer.

Введите ключ API, секрет API, токен доступа и секретный токен доступа.

Добавьте ключевое слово, которое вы хотите найти. Нажмите "Add".

Совет: Используйте популярные ключевые слова, чтобы ускорить получение данных.

После добавления ключевого слова нажмите "Connect", чтобы начать сбор данных из Twitter.

Когда считаете, что данных достаточно, нажмите "Disconnect".

Nodes - это учетные записи Twitter, а Edges - это твиты.

Экспорт в .csv

Нажмите на "Data Laboratory" > "Export table"

Данные, экспортированные в .csv, можно открыть с помощью Microsoft Excel

"Ой, данные выглядят так неряшливо, как их можно прочитать?"

Данные .csv необходимо обработать с помощью скрипта на языке Python, который будет выполняться в Google Colab.

Картирование данных.

Импортируем необходимые библиотеки в Python-скрипт.

import pandas as pd
import numpy as np
import re
import nltk
import matplotlib.pyplot as plt
%matplotlib inline

Загрузим файл .csv в Google Colab.

Добавим следующий код для чтения файла .csv.

dataset = pd.read_csv("scraper irene.csv")

scraper irene.csv - это название моего файла .csv. Вы можете использовать свое собственное название файла.

dataset.head()
Output dari dataset.head()
label = dataset['Label']
label[:10]

Очистка текста

NLTK

Стоп-слова на английском языке

Удаление пунктуации

Генерация облака слов

Результат

Сноски

untag-sby.ac.id

informatika.untag-sby.ac.id