CoderCastrov logo
CoderCastrov
Питон

Автоматическая загрузка бесплатных книг из Springer с использованием Python

Автоматическая загрузка бесплатных книг из Springer с использованием Python
просмотров
2 мин чтение
#Питон
Table Of Content

    Springer бесплатно выпустил 65 книг (этот пост), я хочу загрузить все книги, но мне показалось, что это действительно утомительно - кликать на каждую ссылку книги, переходить по ссылке и загружать книгу.

    В этом посте я покажу вам, как использовать Python для автоматической загрузки всех книг с оригинального поста на Medium. Идея заключается в том, чтобы программно получить все загружаемые URL-адреса книг, загрузить и сохранить их в папку Google Drive.

    Давайте начнем!

    Я использую некоторые функции из urllib.request для загрузки веб-страницы (например, поста на Medium) и содержимого книг. BeautifulSoup из bs4 используется для парсинга веб-контента и извлечения названий и URL-адресов книг.

    Поскольку я буду парсить несколько URL-адресов, будет удобно написать вспомогательную функцию для получения объекта BeautifulSoup из URL.

    Затем я пишу функцию для создания URL-адреса книги. Обратите внимание, что может быть несколько URL-адресов, заканчивающихся на ".pdf", так как Springer позволяет загружать отдельные разделы книги. Чтобы загрузить всю книгу, я просто выбираю первую ссылку.

    Следующая функция извлекает название книги из URL-адреса, содержащего pdf.

    Затем я определяю функцию для загрузки книги с использованием URL-адреса и присваиваю книге имя.

    Затем я объединяю предыдущие функции в одну функцию, которая принимает URL-адрес, содержащий список книг на Medium, и возвращает пары названий книг и URL-адресов для их загрузки.

    Чтобы сохранить книги в папку, я создал папку Google Drive с названием "springer_books", но вы можете задать свое имя папки.

    Следующий цикл будет загружать книги с поста на Medium и сохранять их в моей папке Google Drive.

    Теперь мы видим, что скрипт загружает книги,

    и сохраняет их в папке Google Drive.

    В этом посте я познакомил вас с автоматическим способом загрузки бесплатных книг из Springer с использованием Python. Вы можете расширить код, чтобы получить все, что вам нужно из Интернета автоматически. Если вас интересует парсинг данных из Интернета, я настоятельно рекомендую книгу "Mining Social Media: Finding Stories in Internet Data" Лам Туи Во.

    Ссылка на код: https://colab.research.google.com/drive/1iWB0jiwFGP3mWXj9lDyugg3OcA6jKpU_