CoderCastrov logo
CoderCastrov
Tweepy

Парсинг Twitter с использованием Tweepy

Парсинг Twitter с использованием Tweepy
просмотров
3 мин чтение
#Tweepy

Обзор парсинга Twitter для понимания, что это такое? Что такое Tweepy? С примерами

Twitter Scraping using Tweepy

Что такое парсинг Twitter?

Парсинг Twitter - это процесс извлечения или "парсинга" данных (твитов) из Twitter. Эта информация собирается, а затем экспортируется в формат, который более удобен для пользователя. Это может быть таблица или API.

Парсинг Twitter обычно используется для анализа тональности твитов.

Что такое Tweepy?

Tweepy - это пакет на языке Python с открытым исходным кодом, который предоставляет очень удобный способ доступа к API Twitter с помощью Python. Tweepy включает набор классов и методов, которые представляют модели и конечные точки API Twitter, и он прозрачно обрабатывает различные детали реализации, такие как:

  • Кодирование и декодирование данных
  • HTTP-запросы
  • Пагинация результатов
  • Аутентификация OAuth
  • Ограничения на скорость
  • Потоки

Как использовать Tweepy ?

Для доступа к API Twitter необходимо подать заявку на получение учетной записи разработчика Twitter.

https://developer.twitter.com/en/apply-for-access

После одобрения вашей заявки необходимо создать новый проект в вашей учетной записи для использования Tweepy.

https://developer.twitter.com/en/portal/projects-and-apps

Для доступа к API Twitter необходимо сгенерировать следующие 4 ключа:

  • consumer key (ключ потребителя)
  • consumer secret (секретный ключ потребителя)
  • access token (токен доступа)
  • access token secret (секретный токен доступа)

Теперь пришло время установить tweepy

pip install tweepy

Для пользователей Anaconda можно использовать

conda install -c conda-forge tweepy

Для полного доступа к API Twitter необходимо использовать 4 сгенерированных ключа.

Давайте изучим некоторые методы Tweepy


Лента домашней страницы

  • В этом примере будут загружены твиты с домашней страницы и выведены их детали
Tweet

Лента пользователя

  • В этом примере будут загружены твиты с ленты пользователя и выведены их детали
User Timeline

Курсор

  • В этом примере курсор загрузит несколько расширенных твитов, содержащих ключевое слово, и укажет их язык
Cursor

Потоковая передача твитов

API потоковой передачи Twitter используется для загрузки сообщений Twitter в реальном времени. Он полезен для получения большого объема твитов или для создания живой ленты с использованием потока сайта или потока пользователя.

  • Сначала мы создаем класс с именем MyStreamListener, наследующий от класса StreamListener из tweepy, и переопределяем метод on_status, чтобы вывести некоторые детали твитов (время создания, пользователь и текст твита).

  • Класс StreamListener также переопределяет метод on_error, который используется при возникновении ошибки.

  • Теперь пришло время создать и запустить класс Stream. В Tweepy есть несколько потоков Twitter, мы будем использовать filter, чтобы потоково передавать все твиты, содержащие ключевое слово.

  • Наконец, мы инициализируем конечную точку API с ключами авторизации, слушателем потока и запускаем поток. Мы передаем ключевое слово в качестве параметра, чтобы потоково передавать все твиты, содержащие слово Trump.

  • Чтобы увидеть больше примеров, ознакомьтесь с документацией Tweepy

http://docs.tweepy.org/en/latest/

Ресурсы :


Пожалуйста, не забудьте оставить комментарий ниже, если вам понравилась эта статья, и поделитесь ею с друзьями.

Следуйте за мной на Medium**, Twitter, **Instagram **или найдите меня на LinkedIn и GitHub или напишите мне напрямую, чтобы получать больше интересных тем.

Спасибо за чтение.