CoderCastrov logo
CoderCastrov
Парсер

Обновленный парсинг профиля LinkedIn с использованием Python (проверено в апреле 2021)

Обновленный парсинг профиля LinkedIn с использованием Python (проверено в апреле 2021)
просмотров
2 мин чтение
#Парсер

Этот метод был проверен в последний раз в апреле 2021 года. Эта статья направлена на обновление статьи https://medium.com/@gerrysabar/scraping-linkedin-profile-using-python-selenium-88cb64888cf, которая больше не работает сегодня.

Рабочий процесс для парсинга профиля выглядит следующим образом:

Хорошо, теперь давайте создадим каталог для нашего рабочего пространства:

$ mkdir linkedin

Перейдите в только что созданный каталог, затем создайте виртуальное окружение Python:

$ python3 -m venv venv

Активируйте виртуальное окружение:

source venv/bin/activate

Нам нужно установить необходимые библиотеки для работы в нашем виртуальном окружении Python:

$ pip install selenium
$ pip install requests
$ pip install beautifulsoup4

Вам также нужно установить chromedriver, который будет использоваться для имитации реального пользователя, работающего в браузере Chrome.

Установка Chromedriver для Ubuntu:

$ sudo apt-get update
$ sudo apt-get install -y unzip xvfb libxi6 libgconf-2-4
$ sudo apt-get install default-jdk
  1. Установка Google Chrome
$ sudo curl -sS -o - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add
sudo echo "deb [arch=amd64]  http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google-chrome.list$ sudo apt-get -y update$ sudo apt-get -y install google-chrome-stable
  1. Установка Chromedriver
$ wget [https://chromedriver.storage.googleapis.com/2.41/chromedriver_linux64.zip](https://chromedriver.storage.googleapis.com/2.41/chromedriver_linux64.zip)
$ unzip chromedriver_linux64.zip
  1. Переместим chromedriver в другое место, чтобы сделать его более организованным
$ sudo mv chromedriver /usr/bin/chromedriver$ sudo chmod +x /usr/bin/chromedriver

Примечание: если вы используете систему Windows или Mac, вы можете найти информацию о том, как установить chromedriver, и запомнить, где находится ваш chromedriver (в этой статье он находится в /user/bin/chromedriver), потому что нам понадобится путь позже в нашем приложении Python.

Теперь мы переходим к интересной части, давайте создадим файл python с именем linkedin.py с следующим кодом (не забудьте изменить учетные данные):

В приведенном выше скрипте будет перечислено около 10 профилей LinkedIn для разработчика Python, работающего в Сан-Франциско.

Заключение

Этот подход работает до последнего тестирования 11 апреля 2021 года. Как вы могли заметить, сложность парсинга состоит в том, что элементы веб-сайта могут меняться изо дня в день.