CoderCastrov logo
CoderCastrov
Парсинг веб-страниц

Обучение стать скрапинг-шиноби 🥷🏽 — 27/08/2022

Обучение стать скрапинг-шиноби 🥷🏽 — 27/08/2022
просмотров
2 мин чтение
#Парсинг веб-страниц
Table Of Content

    Сегодня я хочу спарсить несколько тысяч постов в Instagram. Два дня назад я попытался это сделать и столкнулся с проблемой - Instagram блокировал мой аккаунт, вероятно, из-за превышения количества API-запросов. Чтобы обойти это, я планирую создать несколько новых аккаунтов Instagram, спарсить посты пакетами и после каждого пакета переключаться на другой аккаунт. Посмотрим, как пойдет.

    Я только что создал два новых аккаунта Instagram. Я смог провести некоторые тестовые парсинги с последним аккаунтом, поэтому я думаю, что если я буду переключаться между ними, то смогу получить немало данных сегодня, не рискуя снова быть заблокированным Instagram.

    Я сохранил все данные для входа в три аккаунта в доступном json-файле, чтобы улучшить абстракцию. Пора написать функцию для переключения аккаунтов.

    Хорошо, я немного отступил от своего плана. Вместо того, чтобы тратить время на создание функции для переключения данных для входа, я решил просто начать парсинг и вручную менять аккаунты, я всего лишь буду изменять два значения в коде, и так как я все равно буду парсить пакетами, я могу просто менять данные для входа каждый раз.

    Я запустил скрипт, используя тот же аккаунт, который был заблокирован два дня назад, и пока все идет хорошо. В тот день я также проводил множество тестов и, вероятно, сделал больше API-запросов только на тестирование, чем когда решил парсить. Я надеюсь, что, так как я уже провел большую часть тестирования и у меня есть 3 разных аккаунта Instagram, я не столкнусь с той же проблемой.

    В качестве дополнительной меры безопасности я также включил VPN на случай, если Instagram решит заблокировать мой IP-адрес. Возможно, мне стоило сделать это с самого начала, ха-ха.

    В данный момент спаршено 327 из 498 пользователей.

    ПОЕХАЛИ. Первая партия парсинга имен пользователей завершена без проблем, результатом стало почти 3800 постов за менее чем 40 минут! Для безопасности и долговечности я собираюсь переключиться на другой аккаунт и повторить процесс с новой партией имен пользователей. По такой скорости, к концу дня у меня может быть несколько десятков тысяч постов без особых усилий!