CoderCastrov logo
CoderCastrov
Парсер

Новостной парсинг с помощью Octoparse | извлечение метаданных и полных статей новостей

Новостной парсинг с помощью Octoparse | извлечение метаданных и полных статей новостей
просмотров
5 мин чтение
#Парсер

В современном информационном мире традиционные СМИ обращаются к Интернету для развития онлайн-прессы, и теперь мы можем легко читать новости о событиях, происходящих во всем мире. Это упрощает работу исследователей, так как они теперь могут собирать новости из интернета для поддержки своих анализов или отчетов. Кроме того, пресс-агентства могут своевременно узнавать о том, что происходит в других местах. Однако, учитывая огромное количество новостей, публикуемых на бесчисленных новостных сайтах, их сбор вручную является утомительным и даже невозможным.

В этой статье объясняется все, что вам нужно знать о парсинге новостей, а также представляется метод извлечения как метаданных, так и полных статей новостей легко и быстро.

О скрапинге новостей (парсинг новостей)

Скрапинг новостей - это конкретный термин, используемый для извлечения статей или других данных с новостных сайтов. В наше время скрапинг новостей достаточно популярен как среди исследователей, так и среди бизнесменов. Преподаватели и студенты используют его для проведения анализа или исследования определенного социального события, экономисты и политики используют его в своих отчетах об экономике, политике или обществе, а сотрудники компаний используют его для отслеживания своей репутации или общественных отзывов о недавно запущенных продуктах и других важных объявлений, необходимых для бизнеса.

Когда речь идет о извлечении данных, часто возникает вопрос о законности этого процесса. Так что, является ли парсинг новостных сайтов законным?

Да, извлечение публичных и открыто доступных данных с новостных сайтов является законным. Извлечение публичных данных с любого веб-сайта является законным, но вам следует ознакомиться с местными законами и регулированиями, чтобы узнать юридические аспекты извлечения данных с новостных сайтов.

Некоторые данные, доступные на новостных сайтах, могут быть частными и не могут быть скрапнуты, так как они ограничены международными органами регулирования данных.

Почему выбрать Octoparse для парсинга новостей?

Для парсинга новостей доступно множество инструментов, включая Octoparse.

Octoparse - одно из самых популярных программных обеспечений для извлечения данных, доступное для Windows и Mac. Как инструмент без кодирования, Octoparse призван сделать парсинг веб-страниц доступным для всех, чтобы каждый, особенно те, кто не имеет технических знаний, но нуждается в большом количестве данных, мог парсить данные без написания кода.

Простота использования

Octoparse прежде всего известен своей простотой. Благодаря своему интерфейсу "указать-нажать", пользователи могут извлекать данные в три шага и преобразовывать веб-страницы в структурированные таблицы в несколько кликов. Чтобы облегчить использование, Octoparse предлагает готовые шаблоны парсинга веб-страниц. И с функцией автоматического обнаружения пользователи могут легко настроить веб-сайты, которые еще не покрываются шаблонами.

Мощный инструмент для извлечения данных

Octoparse может работать с любыми веб-сайтами, независимо от их структуры и способа загрузки контента: бесконечная прокрутка, выпадающий список, AJAX, аутентификация входа. Кроме того, Octoparse оснащен облачным сервисом, позволяющим более быстрое извлечение данных и извлечение данных на основе облачных вычислений. Поэтому нет необходимости вручную следить за обновлениями и можно выполнять задачи парсинга 24/7, а также планировать задачи парсинга в любое время, ежедневно, еженедельно и с любой частотой. Также доступны IP-прокси, которые помогают избежать блокировки пользовательских IP-адресов. Кроме того, Octoparse также предлагает решения для обхода капчи, чтобы можно было парсить сложные сайты.

Следовательно, с Octoparse вы можете легко получить большое количество данных новостей.

Во-первых, извлекать данные из различных источников. Вы можете использовать его для сбора пресс-релизов, научных журналов, новостей о компаниях, информационных бюллетеней, новостных статей, блогов, издательств и журналов и многого другого из широкого спектра источников данных с максимальной легкостью.

Во-вторых, извлекать различные поля данных. С помощью Octoparse вы можете сохранить не только оригинальную статью новостей, но и метаданные, такие как заголовок, описание, дата публикации, автор, URL изображений, категории, URL ссылок, RSS-ленты, агрегация новостей по ключевым словам и многое другое.

Как извлечь содержимое и метаданные новостей без кодирования?

Без лишних слов, давайте теперь рассмотрим, как использовать Octoparse для извлечения содержимого и метаданных новостей без кодирования.

В этой части я выберу сайт bfmtv в качестве примера. Если вам интересен парсинг новостей, я приглашаю вас скачать Octoparse и установить его, чтобы следовать следующим шагам и получить нужные вам данные.

Шаг 1 Введите URL в Octoparse

Здесь мы сфокусируемся на пенсионной реформе. Вам нужно выполнить этот поиск в вашем браузере на сайте bfmtv.com, а затем скопировать и вставить его на домашнюю страницу Octoparse. Затем нажмите «Start», чтобы начать наш сегодняшний парсинг.

Мой URL: https://www.bfmtv.com/economie/economie-social/reforme-des-retraites_DN-202108310622.html

Шаг 2 Запустите автоопределение

Новая версия Octoparse оснащена этой замечательной функцией. Пользователям достаточно просто нажать «Auto-detect webpage data», чтобы Octoparse определил структуру страницы и автоматически создал рабочий процесс для вас. Таким образом, мы избегаем создания пагинации и цикла (loop).

Шаг 3 Проверьте рабочий процесс, созданный Octoparse

На следующем снимке видно, что пагинация и цикл уже включены в рабочий процесс. Кроме того, вы можете переименовать поля данных в панели «Data Preview» внизу. Если есть ненужные поля, вы также можете их удалить.

Шаг 4 Перейдите на полную страницу статьи

Нажмите на первый заголовок и выберите «Click element».

Шаг 5 Извлеките метаданные

Щелкните на имя автора и выберите «Extract text of the selected element». Затем повторите этот шаг для других интересующих вас полей данных, таких как имя автора, дата публикации, тег и т. д.

Шаг 6 Извлеките полный текст

Изучив HTML-код, мы можем узнать, что полный текст вставлен в [div], поэтому XPath будет //div[@id='content_progress']/div/div

Хотите узнать, как я написал этот XPath? Пожалуйста, ознакомьтесь с этим руководством по XPath.

1 - Нажмите на эту маленькую иконку и выберите «Capture data on the page».

2 - Введите XPath для полной статьи. И вот!

Шаг 7 Запустите задачу парсинга

Нажмите «Run» в правом верхнем углу и выберите режим в соответствии с вашими потребностями.

Шаг 8 Экспортируйте данные

Данные могут быть загружены в форматах, таких как Excel, CSV, или экспортированы в другие системы, такие как Google Sheets, Zapier и т. д.

Вот мои результаты.

Вот и все! Надеюсь, что эти шаги послужат вам руководством при извлечении данных. Фактически, это не ограничивается парсингом новостей, вы также можете использовать его для извлечения полных статей из блогов, социальных сетей и других источников. Приступайте к исследованию!

Сайты новостей во Франции

Сайты новостей - это одни из сайтов, которые мы посещаем практически каждый день.

Вот список сайтов новостей во Франции, отсортированных по количеству посетителей на основе данных SimilarWeb за январь 2022 года.

Следует отметить, что эти цифры могут изменяться, и разные источники могут иметь разные оценки.

Техника парсинга веб-страниц служит эффективным инструментом для извлечения данных. После этого начинается путешествие по поиску скрытой ценности в данных. Удачного парсинга и хорошей работы!

Статья первоначально опубликована на https://www.octoparse.fr/blog/news-scraping-avec-octoparse