Извлечение данных из Twitter с использованием Python

Использование Tweepy для извлечения твитов из Twitter

Сейчас, когда все происходит онлайн, объем данных, которые делятся в социальных медиа, экспоненциально возрос. Используя эти данные, мы можем проанализировать различные социо-экономические факторы, которые сейчас преобладают, и многое другое. Вот способ извлечения твитов на основе определенных тем из Twitter API с использованием библиотеки Tweepy.

Для использования Twitter API вам необходимо иметь учетную запись разработчика Twitter. Запросите ее, это может занять 2-3 часа для получения одобрения. После завершения настройки создайте приложение, в котором вы получите ключи и токены, которые помогут нам извлечь данные из Twitter. Они действуют как учетные данные для входа.

Теперь мы перейдем к коду для получения твитов. Сначала вам нужно импортировать все необходимые пакеты и инициализировать переменные токена и ключа. OAuth в основном позволяет пользователю, через поставщика аутентификации, с которым он ранее успешно аутентифицировался, предоставить другому веб-сайту/сервису ограниченный токен аутентификации для авторизации доступа к дополнительным ресурсам.

# импорт файлов и предоставление доступа к токенам и ключам
import tweepy,json
access_token=""
access_token_secret=""
consumer_key=""
consumer_secret=""
auth= tweepy.OAuthHandler(consumer_key,consumer_secret)
auth.set_access_token(access_token,access_token_secret)

Получив доступ к данным Twitter, мы теперь создадим файл для сохранения всех твитов в нем.

Теперь мы создадим фильтр, который будет извлекать твиты на основе определенных слов, которые упоминаются. В основном он будет извлекать твиты, содержащие слова, которые являются действительными для нашего проекта. Например, если вам нужны данные о covid19, вы будете использовать определенные слова, такие как корона, коронавирус, covid19 и т. д., чтобы отфильтровать твиты, как показано ниже.

# создание объекта потоковой передачи и аутентификация
l = MyStreamListener()
stream =tweepy.Stream(auth,l)#эта строка фильтрует потоки твиттера для захвата данных по ключевым словам
stream.filter(track=['covid','corona','covid19','coronavirus',
'facemask','sanitizer','social-distancing'])

Вы можете прочитать твиты, сохраненные в файле, следующим образом:

tweets_data_path='copp.txt'
tweets_data=[]
tweets_file=open(tweets_data_path,"r")
# чтение твитов и сохранение их в списке
for line in tweets_file:
    tweet=json.loads(line)
    tweets_data.append(tweet)
tweets_file.close()
print(tweets_data[0])

Результатом вышеуказанного является необработанная информация с отметками времени и определенными идентификаторами, которые может использовать Twitter. Вам необходимо очистить данные, чтобы использовать их в своем проекте. Для очистки данных необходимо выполнить такие шаги, как удаление ненужных слов, разбор текстов, удаление ненужных знаков, токенизация и многое другое. "Очистка данных" - это история для другого раза!

Вы можете использовать указанный выше формат для получения данных для любого из ваших проектов, будь то избирательная кампания, экологические проблемы, фондовый рынок или о Лего. Существует множество проблем, которые можно проанализировать с помощью мощи Twitter. Вам просто нужно добавить связанные слова или хэштеги, и вуаля, вы готовы погрузиться в свой проект!

Пожалуйста, не стесняйтесь делиться своими отзывами, чтобы я мог исправить ошибки. Я здесь, чтобы делиться своей работой и учиться новому.

Вот ссылка на мой профиль Github.

Спасибо! :)

Ссылки: -