CoderCastrov logo
CoderCastrov
Технология

Как сделать парсинг данных с Craigslist, включая цены, объявления, детали и т. д.

Как сделать парсинг данных с Craigslist, включая цены, объявления, детали и т. д.
просмотров
4 мин чтение
#Технология
Table Of Content

    На Craigslist вы можете найти практически все.

    От соседней квартиры до пропущенных знакомств в метро.

    На Craigslist есть так много объявлений, что может быть сложно просматривать и сравнивать их эффективно.

    Не было бы удобно, если бы вы могли извлечь все детали из списка объявлений в таблицу?

    Craigslist и парсинг данных

    Используя возможности парсинга веб-страниц, мы легко можем извлечь все необходимые нам данные с Craigslist. Здесь мы будем извлекать результаты аренды жилья в Торонто. В этом случае эти данные можно использовать для поиска квартир или анализа текущего рынка аренды.

    Мы также будем использовать Retailgators Scraper, мощный парсер данных, который легко справляется с сайтами, включая Craigslist.

    Начнем

    1. Сначала убедитесь, что вы скачали и открыли Retailgators Scraper.

    2. Затем нажмите на "New Project" и введите страницы результатов поиска, которые мы будем извлекать. Веб-страница будет отображаться в приложении, и вы сможете начать выбирать данные для экспорта.

    Извлечение данных с Craigslist

    1. Когда веб-страница, которую вы ввели, отобразится, просто щелкните на заголовке первого объявления на странице. Он будет выделен зеленым цветом, чтобы показать, что он выбран.
    1. Остальные заголовки на экране будут выделены желтым цветом. Просто щелкните на втором варианте, чтобы выбрать все. Все они будут выбраны и выделены зеленым цветом.
    1. В левой боковой панели переименуйте выбор с названием "listing". Теперь Retailgators будет парсить заголовок объявления и его URL.
    1. После выбора используйте символ PLUS (+) и выберите команду "Relative Select". Используйте команду и щелкните на заголовке первого объявления и на его цене. Одна стрелка подсветит этот выбор. Переименуйте выбор с названием "price".
    1. Используйте иконку рядом с выбором цены, чтобы расширить выбор и удалить парсинг price_url, так как он снова извлекает URL списка.
    1. Повторите шаг 5, чтобы выбрать детали спален и местоположения списка. Переименуйте выбор соответственно.

    Извлечение страниц объявлений Craigslist

    Теперь мы скажем Retailgators щелкнуть на каждом объявлении на странице и извлечь дополнительные данные из каждого объявления.

    1. Сначала щелкните на символе PLUS (+) рядом с выбором объявления и выберите команду "Click".
    1. Появится окно с запросом, является ли это кнопкой "next page". Затем нажмите "нет" и выберите "Create New Template". Назовите новый шаблон "listing_template".
    1. Первое объявление автоматически откроется, и вы сможете сделать свой первоначальный выбор.
    1. Затем мы начнем с выбора заголовка объявления. Переименуйте выбор с названием "title".
    1. Используйте символ PLUS (+) рядом с выбором заголовка и используйте команду "Relative Select", чтобы сделать новый выбор для парсинга.
    1. Здесь мы сделали выбор для информации об объявлении и дате.
    1. При парсинге веб-страниц вы заметите, что извлеченная информация будет отображаться в виде относительных временных меток (например, 2 часа назад). Чтобы улучшить этот парсинг, расширьте выбор даты и щелкните на команде "extract date". В выпадающем меню "Extract" выберите "Title Attribute". Теперь Retailgators будет парсить полное время и дату публикации.

    Работа с навигацией

    До сих пор мы сказали Retailgators Scraper извлекать данные только с первой страницы результатов и всех объявлений. Однако вы можете захотеть извлечь еще больше данных.

    Теперь мы скажем Retailgators Scraper извлекать объявления с нескольких следующих страниц результатов.

    1. Сначала используйте левую боковую панель, чтобы вернуться к основному шаблону. Затем щелкните на вкладке браузера для страниц результатов поиска.

    2. Используйте символ PLUS (+) рядом с выбором страницы и выберите команду "Select".

    1. Используя команду "Select", прокрутите страницу до конца и выберите ссылку "next" на странице. Переименуйте выбор с названием "next".
    1. Расширьте свой выбор и удалите оба извлечения, которые были сделаны по умолчанию.
    1. Затем используйте символ PLUS (+) на следующем выборе и выберите команду "Click".
    1. Появится окно с запросом, является ли это кнопкой "next". Затем нажмите "Да" и введите количество повторений последовательности. Здесь мы повторим это 5 раз.

    Запустите парсинг

    Теперь мы готовы запустить парсинг. Просто нажмите кнопку "Get Data" в левой боковой панели и выберите "Run".

    После завершения работы вы сможете скачать извлеченные данные в виде таблицы Excel.

    Вывод

    Теперь, когда ваш первый парсер Craigslist готов, вы можете использовать эти навыки для извлечения данных из других категорий товаров на Craigslist.

    Например, вы можете извлечь цены на автомобили или iPhone, чтобы убедиться, что вы получаете лучшие предложения для следующей покупки. Хотите узнать больше о парсинге веб-страниц Craigslist? Свяжитесь с Retailgators или запросите бесплатную оценку!