CoderCastrov logo
CoderCastrov
Парсер

Парсинг таблицы с веб-сайта с помощью Google Sheets

Парсинг таблицы с веб-сайта с помощью Google Sheets
просмотров
4 мин чтение
#Парсер
Table Of Content

    Assalamu’alaikum Warahmatullahi Wabarakatuh

    Привет, друзья! Сегодня мы рассмотрим парсинг таблиц с помощью Google Sheets.

    Под парсингом таблицы подразумевается извлечение данных из таблицы, например, список столиц и провинций Индонезии, список вулканов, озер и т.д. Парсинг таблицы позволяет извлекать данные из таблицы на веб-сайте без необходимости копирования и вставки в Excel. Для этого нам понадобятся Google Sheets и ссылка на веб-сайт, с которого мы хотим извлечь данные. Давайте начнем.

    Сначала нам нужен аккаунт Gmail, который мы будем использовать для входа в Google Sheets. Если у вас уже есть аккаунт, откройте браузер и введите "Google Sheets". Нажмите на верхнюю ссылку "Google Sheets: Войти".

    После нажатия на ссылку вы будете перенаправлены на страницу входа, где вам нужно будет ввести адрес вашей учетной записи Gmail, если вы еще не вошли, или выбрать учетную запись Gmail, если вы уже входили ранее. Затем вам будет предложено ввести пароль от вашей учетной записи Gmail. Я уже входил ранее, поэтому у меня отображается следующий экран.

    Выбор используемой учетной записи электронной почты Ввод пароля

    После успешного ввода пароля вы будете перенаправлены на страницу Google Sheets. Затем мы скопируем ссылку на веб-сайт, с которого мы хотим извлечь данные. Например, список вулканов в Индонезии. Введите запрос в поисковой строке браузера и найдите веб-сайт с заголовком, который вам нужен, например, "Список вулканов в Индонезии".

    После нажатия на ссылку вы перейдете на эту страницу. Если прокрутить вниз, вы увидите таблицу с первым списком вулканов, отсортированных по географическим группам.

    Если прокрутить вниз еще раз, вы увидите список вулканов в Сундском проливе и Яве, Малых Зондских островах и так далее. Затем скопируйте ссылку на этот веб-сайт.

    Затем вернитесь в Google Sheets. Введите =IMPORTHTML("ссылка на веб-сайт", "table", 1) в ячейку Google Sheets. Вставьте скопированную ссылку вместо "ссылка на веб-сайт". Поскольку мы хотим извлечь данные из таблицы, мы используем "table", а число 1 указывает индекс таблицы на веб-сайте. Нажмите Enter.

    После нажатия Enter вы увидите результат, как показано ниже. Это означает, что данные в виде таблицы с веб-сайта были успешно извлечены. Вы можете видеть, что была извлечена первая таблица на веб-сайте, список вулканов в Индонезии в Суматре.

    Если вы хотите извлечь таблицу со следующим порядковым номером, просто скопируйте ячейку с формулой, которую вы ввели в ячейке A1.

    Затем вставьте его в следующую ячейку после списка вулканов в Суматре в этом Google Sheets и измените индекс таблицы на 2, потому что таблица, которую мы хотим извлечь, находится на втором месте на этом веб-сайте (то есть таблица после списка вулканов в Суматре). Нажмите Enter.

    После нажатия Enter появится извлеченная таблица, которая находится после таблицы вулканов в Суматре, а именно в Сундском проливе и Яве.

    Точно так же, если вы хотите извлечь таблицу с следующим порядковым номером, просто измените индекс таблицы на 3, 4, 5 и так далее. Если вы не хотите извлекать все таблицы, вы можете настроить индекс таблицы в соответствии с порядковым номером таблицы на веб-сайте, который вы хотите извлечь. Если результаты извлечения не соответствуют порядку таблицы, вы можете изменить индекс таблицы, пока результаты извлечения не совпадут с желаемой таблицей.

    В качестве другого примера мы извлечем данные о странах Азии и их столицах. Вы можете найти это на веб-сайте или нажать здесь. Например, я хочу извлечь таблицу Западной Азии, которая находится на пятом месте на этом веб-сайте. Но сначала давайте попробуем извлечь начальную таблицу, то есть Восточную Азию, чтобы убедиться в индексе таблицы. Шаги такие же, как и раньше - скопируйте ссылку на веб-сайт, затем перейдите в Google Sheets. Ну, результаты извлечения я хочу поместить на вторую страницу Google Sheets, нажав на значок "+" внизу страницы Google Sheets.

    Тогда появится вторая страница Google Sheets, как показано на рисунке ниже.

    Затем введите формулу и вставьте ссылку в ячейку Google Sheets: =IMPORTHTML("ссылка на веб-сайт", "table", 1). Нажмите Enter.

    После нажатия Enter появятся результаты извлечения.

    Мы сравним результаты с первой таблицей на веб-сайте, то есть Восточной Азией, и они совпадают.

    Ну, исходная цель нашего парсинга была таблица Западной Азии, которая находится на пятом месте на этом веб-сайте. Скопируйте ячейку с формулой, которую вы ввели ранее, то есть ячейку A1, и измените индекс таблицы на 5.

    После нажатия Enter появятся результаты извлечения.

    Мы снова проверим, соответствуют ли результаты извлечения желаемой таблице, то есть Западной Азии, и они также совпадают.

    Если вы хотите сохранить результаты извлечения, вы можете нажать на меню "Файл -> Скачать", выбрать желаемый формат сохранения и нажать. Я сохраню файл в формате xlsx.

    После нажатия на "скачать" результаты извлечения автоматически загрузятся в файл xlsx.


    Вот и все, что касается парсинга таблиц с помощью Google Sheets. Надеюсь, это было полезно.

    Wassalamu’alaikum Warahmatullahi Wabarakatuh.


    Ссылки