CoderCastrov logo
CoderCastrov
Парсер

Парсинг данных о сотрудниках компании на LinkedIn с использованием CrossLinked в Python.

Парсинг данных о сотрудниках компании на LinkedIn с использованием CrossLinked в Python.
просмотров
3 мин чтение
#Парсер

В этой статье вы узнаете, как получить данные о сотрудниках компании на LinkedIn и сохранить их в файл CSV. LinkedIn имеет строгую политику в отношении парсинга данных, вы можете ознакомиться с ней на странице конфиденциальности и политики LinkedIn. Этот блог предназначен только для образовательных целей.

Следуйте нижеуказанным шагам для парсинга сотрудников компании с использованием CrossLinked.

Шаг 1: Установка

Первый шаг - установка пакета CrossLinked. Мы можем установить его с помощью pip или клонировать репозиторий, а затем установить его. Я расскажу вам об обоих способах.

Ссылка на CrossLinked GitHub

GitHub - m8sec/CrossLinked: Инструмент для перечисления LinkedIn, который использует парсинг поисковых систем для сбора действительных имен сотрудников из...

github.com

1. Шаги по установке CrossLinked

1. Установите CrossLinked с помощью pip:

Для установки пакета вы можете создать новую среду Python или использовать старую, в которую вы хотите установить.

Если вы не хотите создавать виртуальную среду, вы можете установить его глобально.

Я не рекомендую использовать это, потому что в некоторых случаях оно может работать неправильно. Если вы хотите установить его с помощью pip install, то можете следовать документации на странице CrossLinked в GitHub.

Я хочу, чтобы вы следовали второму шагу, который заключается в клонировании репозитория, а затем его установке. Поскольку он будет установлен с последним кодом из репозитория CrossLinked, код, размещенный на PyPi, может быть устаревшим. Это будет работать нормально и создаст csv-файл в вашей папке, из которой вы будете его запускать.

pip3 install crosslinked

2. Установка путем клонирования репозитория CrossLinked

Прежде всего, создайте отдельное виртуальное окружение для CrossLinked, так как нам также нужно установить зависимости. Для этого лучше всего использовать отдельное виртуальное окружение.

Вы можете создать виртуальное окружение с помощью следующей команды в нужном месте.

python3 -m venv /путь/к/новому/виртуальному/окружению

После создания виртуального окружения активируйте его с помощью этой команды

# Используя командную строку
путь\к\виртуальному\окружению\Scripts\activate.bat

# Используя Powershell
путь\к\виртуальному\окружению\Scripts\Activate.ps1

После активации окружения создайте новую папку в нужном месте с помощью той же командной строки и перейдите в эту папку. Следуйте приведенному ниже снимку экрана для помощи.

Создание папки и переход в нее

На приведенном выше снимке экрана вы можете видеть, что сначала я создал виртуальное окружение на рабочем столе, а затем активировал его. Вы можете видеть имя виртуального окружения перед путем пользователя, это означает, что наше виртуальное окружение активировано.

После этого я создал новую папку на рабочем столе, а затем перешел в эту папку и склонировал репозиторий.

После клонирования репозитория перейдите в папку CrossLinked, которую вы только что склонировали, а затем установите зависимости для CrossLinked с помощью следующей команды

pip install -r requirements.txt

Если у вас возникнут проблемы, вы можете следовать приведенным ниже снимкам экрана.

Установка зависимостей Установка зависимостей

На приведенном выше снимке экрана вы можете видеть, что наши зависимости успешно установлены.

Теперь перейдем к основной части - установке CrossLinked. Вы можете установить его с помощью следующей команды. Для этого вам нужно находиться в папке CrossLinked, которая была создана после клонирования репозитория.

python3 setup.py install
Установка CrossLinked

CrossLinked успешно установлен с последним кодом с GitHub. Теперь перейдем к реальному шагу - получению данных.

Шаг 2 Получение данных:

Теперь давайте получим данные, просто запустив команду из командной строки и сгенерируем csv-файл.

Команда выглядит так:

python3 crosslinked.py -f '{@domain.com">first}.{last}@domain.com' название_компании

Здесь вы можете передать домен компании, который является веб-сайтом, или, для лучших результатов, вы можете передать название компании. Название должно быть таким же, как на LinkedIn.

Здесь вы можете видеть, что я запустил его для Google, и я получил 414 собранных имен, что не все, но более чем достаточно, чтобы получить некоторую информацию об этих пользователях. CSV-файл также будет сгенерирован в вашей папке. Имя файла будет names.csv, так как это имя по умолчанию от разработчиков crosslinked.

Вы можете просмотреть этот CSV-файл в любом просмотрщике CSV. Данные будут выглядеть так.

Сгенерированные данные

Следующий шаг:

После этого вы можете парсить информацию из отдельных профилей, используя ссылки на профили из CSV-файла. Для этого дождитесь следующего сообщения.

Надеюсь, вам понравился контент, пожалуйста, подпишитесь и поставьте лайк.