Парсинг веб-страниц (2/2)

Ссылка на первую часть статьи находится здесь.

Я создал сайт на основе парсинга контента с нескольких различных веб-сайтов. Ссылка на сайт здесь.

Перепись населения

Эта страница создана с использованием Node.JS и парсера Cheerio. Она используется в качестве учебного материала по парсингу веб-страниц. Cheerio - это зрелый инструмент, который давно занимает свою нишу в этой области.

Я собрал информацию с более чем 7 сайтов, чтобы создать эту страницу. Некоторые из содержимого, такие как население, взяты с сайта A, названия столиц с сайта B, температура с другого сайта, фотографии с сайта D и так далее. Это простой пример использования парсинга веб-страниц для представления страницы.

Существует множество сайтов и компаний, которые делают нечто подобное, так как данные могут быть получены с публичных страниц. Коммерческие сайты гораздо более сложные, чем мой пример выше.

Парсинг страницы, особенно для статических страниц, не так сложен, как может показаться. Если вы знаете основы веб-разработки и основы программирования (Python или Java), то вы уже на полпути к успеху.

Популярные инструменты для парсинга веб-страниц

Есть несколько сервисов для парсинга веб-страниц, которые можно использовать, если вы не хотите создавать их самостоятельно. Большинство из них являются платными или предлагают пробные версии. Некоторые из популярных:

Популярные бесплатные инструменты для парсинга веб-страниц

Для использования этих инструментов в основном требуется некоторое понимание языка программирования (в основном Python) и основ знаний веб-приложений. Некоторые из часто используемых инструментов:

Навыки, необходимые для парсинга веб-страниц

Веб-драйвер Selenium.
Python / Ruby или Javascript, HTML, CSS.
Умение парсить файл robots.txt.
Знание методов инспектирования элементов / селекторов.
Базовые знания веб-разработки.
Знакомство с инструментами разработчика Chrome.

Обычные применения

Сбор данных для маркетинга, что является распространенной практикой во многих компаниях.
Извлечение информации для обработки данных (для обучения "ИИ").
Ставки / азартные игры / развлечения. Многие люди используют парсинг для извлечения информации и анализа своих ставок.
Сбор информации о местоположении аренды, самых дешевых предложениях (авиабилеты, любые товары, которые вы хотите отслеживать перед покупкой), покупка крупных предметов, финансовые акции для личного использования.

Оговорки

Перед тем, как парсить любые сайты, убедитесь, что нет других альтернативных средств (например, API-сервисов). Прочтите условия использования, прочтите файл robots.txt, проверьте законность в вашем местном сообществе и не наносите вред услугам (это крайне важно). Вам также нужно проверить авторское право на контент, так как некоторая информация может быть защищена авторским правом, даже если она доступна публично.

И существует множество способов не парсить сайт, так как сервисы могут уже предлагать то, что вам нужно, за определенную плату!

Какие инструменты вы предпочитаете для извлечения данных из Интернета? Что бы вы хотели извлечь из Интернета?

Источник оригинальной статьи: https://www.linkedin.com/pulse/web-scraping-22-ivan-tay/

Дата: 27 января 2021 г.