Введение:

Для выполнения этой задачи нам нужно знать, как выполнить 3 вещи:

Для парсинга сайта мы будем использовать Python.

Для запуска программы в облаке мы будем использовать Google Cloud.

Для запуска нашей программы ежедневно мы будем использовать crontab.

Для хранения наших данных мы будем использовать Google Sheets с помощью его API.

Чтобы научить вас всему этому, мы попытаемся спарсить веб-страницу: https://www.pinnacle.com/fr/baseball/matchups/

Отправляя матчи бейсбола и их информацию (коэффициенты, даты, игроки, турниры) в таблицу Google Sheets, и делать это каждый день с помощью облачного сервера.

Учебник можно разделить на 4 части:

Весь код, используемый в этом учебнике, доступен в моем репозитории Git: https://github.com/ArnaudHureaux/scraping-with-google-cloud

1) Часть 1: Получение личного сервера Google Cloud

Перейдите на эту страницу: https://cloud.google.com/free

Войдите в свою учетную запись Google:

Перейдите в "Compute Engine" -> "VM instances":

Создайте новый экземпляр VM (новый экземпляр виртуальной машины):

Выберите регион, ближайший к вашему месту проживания, и используйте эту конфигурацию:

Хорошо, теперь, когда VM создана, подключитесь к ней, нажав кнопку SSH (красная):

Поздравляю, у вас есть работающий сервер Linux!

Теперь осталось только настроить этот сервер для регулярного парсинга целевого сайта :)

Ссылка на следующую часть: https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-2-4-19104a48538

Не стесняйтесь связаться со мной в LinkedIn, если у вас есть вопросы / познакомиться: www.linkedin.com/in/arnaud-hureaux-895421159

Как ежедневно парсить сайт в облаке с помощью Selenium от А до Я? (Часть 1/4)

Введение:

1) Часть 1: Получение личного сервера Google Cloud