В этой короткой статье мы рассмотрим, как выполнить парсинг, или, более точно, веб-парсинг, и поделимся несколькими советами по извлечению данных и/или информации самого различного характера.

Введение

В этот период истории, когда нужно держать дистанцию, и мир становится все более цифровым, мы, в YOUTHQUAKE, подумали о всех тех компаниях, которые, не полностью вошедши в эту новую реальность и до сих пор частично или полностью основывают свой бизнес на человеческих отношениях, замечают, что они исключены из рыночной ниши, в которой их бизнес был укреплен.

"К каждой проблеме есть решение", как принято говорить, поэтому почему бы не использовать информацию, которую наши клиенты/пользователи оставляют на социальных платформах, таких как Facebook, чтобы узнать, в чем они заинтересованы, где они находятся, что они нажимают, и создавать интересный контент, отражающий их "Нравится"? Это немного новый способ знакомства, назовем его "meet 2.0", не очень прямой, но определенно очень личный.

Кроме того, важно помнить, что работая с социальными медиа, любой контент, который нажимает или делится нашей целевой аудиторией, будет иметь широкую видимость (будет виден кругу друзей этого пользователя) и, следовательно, возможность привлечь новых потенциальных клиентов для нашего бизнеса.

Парсинг веб-страниц

Сегодня в мире цифровых технологий все чаще используется и повторяется слово "парсинг" менеджерами, цифровыми маркетологами, аналитиками и т.д. Но что это значит на самом деле? Мы, в команде YOUTHQUAKE, попытались объяснить - на собственном опыте - что такое парсинг.

Давайте начнем с определения: буквально парсинг означает "скрести". И никакое другое определение не было бы более подходящим. Основная идея этой техники заключается в извлечении информации с веб-страниц. И вот возникает первый вопрос: "Хорошо, но какую информацию я могу извлечь?". Мы можем извлечь все, что хотим! Невероятно, не так ли? Сказано так, это действительно кажется простой и мгновенной операцией, но на самом деле, хотя мы и можем извлечь большое количество данных, нам придется заплатить цену. Не цену в деньгах, а во времени! Нам придется создать алгоритм, или проще говоря, бота, который будет извлекать эту информацию для нас.

Существуют разные категории алгоритмов, которые отличаются по своей задаче:

Технические боты: самая распространенная и малоизвестная категория ботов для пользователей, потому что, в конце концов, они действуют "в тени". К этой категории относятся, например, веб-краулеры или веб-пауки, то есть программное обеспечение, используемое поисковыми системами для анализа Интернета, сохранения веб-сайтов и создания индексов, которые затем позволяют предоставлять подходящие результаты поиска.
Чат-боты: программное обеспечение, использующее искусственный интеллект и машинное обучение, способное имитировать способность человека отвечать, создавая гипотетический разговор с пользователем.
"Социальные" боты: они стали постоянным явлением даже в социальных сетях в виде фейковых профилей.

В зависимости от типа задачи, которую мы хотим выполнить с помощью нашей программы, нам придется реализовать разные возможности. Например, для чат-ботов нам потребуется реализовать алгоритмы машинного обучения, которые могут давать удовлетворительные ответы в зависимости от потребностей: общение с реальным пользователем для клиентской поддержки или создание фейковых профилей для повышения видимости наших контентов. Чтобы удовлетворить последнюю потребность, мы можем программировать бота для таких задач, как ставить "лайки", чтобы наш контент рос, а затем "спонсировался социальной платформой".

В этой статье наше внимание будет сосредоточено именно на первых - технических ботах.

Теперь вопрос, который нужно задать себе: "Владелец веб-сайта или платформы готов передать данные?". Ответ - "конечно, НЕТ!". Эти боты работают в тени, и цель состоит в том, чтобы не быть обнаруженными, иначе, в худшем случае, ваш IP-адрес может быть заблокирован на сайте.

Тогда вы можете спросить: "Зачем тратить время на что-то, если я рискую столкнуться с более или менее серьезными последствиями?". Ответ может быть не так очевиден, если мы не зададим себе еще один вопрос: "У меня есть, например, страница в социальной сети Facebook с небольшим количеством фанатов: кто они? Что им нравится? Где они находятся?".

Почти никто не сможет ответить на этот вопрос, так почему бы не "найти их"?

Основная идея заключается в том, чтобы понять, из чего состоит наша аудитория клиентов, чтобы создавать продукты, услуги, контент, которые будут крайне интересными и привлекательными для конечного пользователя.

Как сделать

После ответа на вопросы "Что?" и "Почему?" остается понять "Как" сделать. Прежде всего нам нужна среда, в которой мы можем написать наш алгоритм: как R, так и Python имеют достаточное количество библиотек, которые можно использовать (представьте их как ящики с инструментами, в которых содержатся все инструменты для достижения нашей цели).

Теперь необходимо найти способ автоматического запуска сеанса вашего браузера: это важно, потому что нужно заставить и Google, и владельца сайта поверить, что "то, что происходит", на самом деле выполняется реальным человеком. Очень простая вещь, которая отличает машину от физического лица, - это скорость выполнения различных действий навигации, таких как ввод поисковых запросов, клики, прокрутка и открытие новых окон и/или вкладок. Поэтому необходимо указать нашему боту время задержки (как можно более случайное) между одним действием и другим.

Теперь пришло время извлечь данные, и для этого необходимо иметь элементарное представление о том, как устроена веб-страница. Каждая веб-страница написана на языке HTML, который позволяет создавать гипертекстовые документы, чьи маркирующие символы (так называемые теги) описывают части документа, форматирование текста, графику и ссылки на другие документы (так называемые ссылки). Нужно помнить, что гипертексты - это документы, в которых информация не структурирована линейно и последовательно, как в книге, а построены как сеть, узлы которой позволяют "перепрыгивать" из одной части в другую.

Кажется сложным, но не волнуйтесь. Вам не нужно учиться писать на языке HTML, достаточно изучить основные теги и основные атрибуты, так как инструменты в наших "ящиках с инструментами" представляют собой указатели, которые распознают определенные части кода страницы:

Щелкнув правой кнопкой мыши и выбрав "Просмотреть код", вы сможете получить доступ к инструментам разработчика. На приведенном выше изображении вы можете заметить, что в этом случае мы выбираем из HTML-страницы раздел с тегом "<a>" и атрибутом "href".

Различные сайты и социальные платформы пытаются предотвратить получение своей информации таким образом, придумывая различные способы, чтобы наш парсинг не удался. В этом случае единственное решение, которое мы можем порекомендовать, - действовать сообразно обстоятельствам и искать все более инновационные решения.

Заключение

Проведя описанные в этой статье операции на социальных платформах, мы получим большое количество данных. Единственный способ действительно использовать эту информацию - это реализовать алгоритмы кластеризации, которые позволят суммировать извлеченную информацию и создавать покупателей, представляющих наших пользователей. Таким образом, мы сможем не только понять предпочтения и характеристики наших подписчиков, но и создать полезную базу данных для будущего использования.

Мы, в YOUTHQUAKE, работаем рядом с компаниями и профессионалами, чтобы поддерживать их во всех стратегических и оперативных действиях, связанных с оптимизацией пути клиента, цифровым маркетингом, дизайном, UX/UI, аналитикой и технологиями. Чтобы узнать больше, посетите наш сайт или свяжитесь с нами.

Опубликовано YOUTHQUAKE: https://youthquake.it/blog/how-meet-our-friends

Как 'встретить' наших друзей

Введение

Парсинг веб-страниц

Как сделать

Заключение