CoderCastrov logo
CoderCastrov
Парсинг

Парсинг текстов песен со всего мира

Парсинг текстов песен со всего мира
просмотров
1 мин чтение
#Парсинг

Парсинг веб-сайтов - это техника извлечения данных с веб-сайта. В этой статье я покажу вам, как я парсил тексты песен с веб-сайта. Эта статья предназначена только для обучения, делайте это на свой страх и риск.

Когда я узнал о генерации текста с использованием глубокого обучения, я захотел сгенерировать текст, который звучит поэтично, как у музыканта.

Для этого мне нужны данные для создания модели.

Где я могу их получить?

Twitter - первый источник данных, который приходит мне в голову, потому что его легко получить и он имеет огромный источник данных.

И где еще я могу получить больше данных?

Я нашел этот сайт, AZLyrics.com.

На этом сайте есть огромное количество текстов песен со всего мира. Я могу найти песни конкретного музыканта на этом сайте.

Поэтому я попытался создать парсер для извлечения текстов песен с этого сайта.

Я парсил его с помощью Python 3, Selenium, BeautifulSoup. Ниже приведен мой код парсера.

Измените имя музыканта в строке 53, чтобы изменить поиск. Вы получите все песни этого музыканта.

В этих кодах я пытаюсь скачать все песни певца по имени "fiersabesari", известного музыканта из Индонезии.

В каждой песне будет задержка в 5 секунд. Вы можете изменить время задержки в строке 46. Я использую задержку, потому что веб-сайт обнаружит наш парсер как робота и перенаправит нас на страницу CAPTCHA.

Для каждой полученной песни она будет сохранена в строке одного CSV-файла с именем musician_azlyrics.csv.

Не стесняйтесь редактировать и использовать его, но делайте это на свой страх и риск.

Спасибо.