CoderCastrov logo
CoderCastrov
Найм

Крупномасштабный случай парсинга веб-сайтов для стартапа по юридическому найму в США

Крупномасштабный случай парсинга веб-сайтов для стартапа по юридическому найму в США
просмотров
7 мин чтение
#Найм

Мы - компания, предоставляющая услуги веб-парсинга, и хотим рассказать вам о нашем случае работы с американским стартапом в сфере юридического найма. Проконсультируйтесь с нашим экспертом, чтобы узнать, как DataOx может помочь вашему бизнесу с крупномасштабным парсингом веб-данных.

Введение

Если вы уже посмотрели наш сайт, то, вероятно, заметили, что у нас есть обширный опыт в области парсинга данных и мы предоставляем широкий спектр услуг в этой сфере.

Однако реальные случаи рассказывают более интересную историю, и сегодня мы хотим поделиться одним из них с вами. К сожалению, большинство наших проектов находятся под соглашением о неразглашении (NDA), и мы не можем назвать имя клиента или компании, в которой он работает, но технические детали нашего случая настолько невероятны, что мы не можем не поделиться ими.

Давайте перейдем к делу.

Клиент

Наш клиент - адвокат из США, который запустил стартап по найму юристов в 2015 году. Если вы когда-либо искали хорошего адвоката в определенной области, то знаете, что сама задача представляет собой вызов, а когда дело касается найма в этой сфере, все становится еще сложнее. Таким образом, наш клиент решил связать правильных адвокатов с теми, кто ищет их в США.

Проект начался 5 лет назад, и с тех пор мы собрали обширную базу данных более 3 000 юридических компаний по всей США, а также более 300 000 профилей адвокатов. Несомненно, объем работы был огромным, и проект является прекрасным примером масштабного парсинга веб-страниц.

Кто получает выгоду от этой услуги?

Основными клиентами нашего клиента являются рекрутинговые агентства, специализирующиеся на обслуживании юридических фирм, юридические компании с собственными рекрутинговыми командами и адвокаты, ищущие новую работу.

Информация, предоставляемая на официальном сайте нашего клиента, также является плодотворной почвой для маркетологов и маркетинговых исследований, поэтому специалисты в этой области также получат выгоду от услуги. Читайте также: Сервис парсинга вакансий Сервис работает на основе подписки, и рекрутеры могут приобрести доступ как к базе данных кандидатов, так и к базе данных вакансий, чтобы соотнести их друг с другом.

Проект

Задачей DataOx было собрать информацию о всех адвокатах США, проанализировать ее, очистить и обогатить для рекрутеров. Поскольку мы продолжаем обеспечивать поддержку проекта, мы по-прежнему собираем и обновляем базу данных дважды в месяц.

Другой аспект нашей работы заключается в разборе объявлений о вакансиях в судах, которые мы делаем каждые два часа. Это позволяет нашим клиентам иметь актуальную базу данных вакансий для адвокатов различных специализаций.

Более 3000 парсеров DataOx собирают информацию об адвокатах США. Для каждого человека извлекается более 30 параметров, включая личные и профессиональные данные, образование и трудовой опыт, области практики, специализации, допуски к практике и многое другое. В то же время около тысячи других парсеров работают, чтобы собрать информацию о вакансиях в судебной сфере по всей США. Для поддержки работы ботов задействованы два человека, так как их работа часто нарушается анти-парсинговыми мерами и неожиданными изменениями на целевых веб-сайтах.

Как сам адвокат, наш клиент анализирует и обогащает информацию на основе своих знаний в сфере правосудия и знакомства с особенностями профессии и отрасли в целом.

Вызовы

Точность личных данных

В США юридические фирмы публикуют информацию о своих командах на своих веб-сайтах. Однако время от времени специалисты делают боковые перемещения - поэтому, когда какой-то адвокат, давайте назовем его Джон, исчезает на одном сайте, а другой Джон появляется где-то еще, нашей задачей является определить, является ли он тем же Джоном.

Такая же проблема может возникнуть с кандидатами, которые изменили свою фамилию после замужества, переехали в другой штат и т. д.

Проблема сопоставления

Более того, фирмы не раскрывают возраст адвокатов на своих веб-сайтах, поэтому еще одной проблемой, с которой мы столкнулись, было определение их возраста по замененным данным, таким как год окончания учебного заведения или год получения степени. Адвокат может получить несколько степеней в разных университетах, но они редко указывают эти детали в своих резюме. Поэтому задачей DataOx было также сопоставить правильную степень с правильной школой или университетом, чтобы предоставить точную личную информацию о каждом кандидате. Мы использовали сложный пользовательский парсинг для решения этой задачи.

Блокировка прокси

Это более или менее обычная проблема в большинстве наших проектов. DataOx - компания, базирующаяся в ЕС, хотя мы выполняем проекты по всему миру. Проект, о котором мы сейчас говорим, касается американских адвокатов, поэтому нам нужно было получить американские IP-адреса, чтобы избежать блокировки наших прокси. Мы знаем, как это сделать быстро, эффективно и без проблем, поэтому задача была решена без сучка и задоринки.

Управление данными

Когда вы имеете дело с масштабным парсингом веб-сайтов, управление данными всегда является актуальной проблемой. Как уже упоминалось выше, объем информации действительно огромен, и команда DataOx разработала пользовательскую систему управления данными для управления всем этим. Система построена на Java для этого конкретного проекта.

Таким образом, когда речь идет о проекте парсинга данных, DataOx всегда может предложить своим клиентам интегрированные индивидуальные решения для хранения и управления данными.

Хранение изображений

Мы не только собирали текстовые данные об адвокатах в США, но и извлекали их фотографии для более простой и быстрой идентификации специалистов. Для этой цели нам пришлось точно спроектировать инфраструктуру хранения, чтобы соответствующие изображения соответствовали соответствующим профилям.

Обогащение данных

Для того чтобы сделать профили адвокатов всесторонними, мы также отслеживали социальные сети. Это помогло нам дополнить официальную информацию некоторыми важными деталями. Не всегда просто определить профиль человека в социальных сетях, однако мы сделали это для большинства наших кандидатов и фирм, в которых они работают.

Парсинг описаний вакансий

Основной проблемой при извлечении деталей о вакансиях была свободная форма, в которой некоторые вакансии публикуются. Здесь мы также использовали сложный пользовательский парсинг, чтобы определить правильные требования к работе с правильными полями в нашем наборе данных.

Стандартизация маркировки

При извлечении информации из различных источников мы часто сталкивались с проблемой маркировки одного и того же места (Нью-Йорк, N. Йорк, NY), университета, степени или названия компании. Мы разработали систему унификации для всех этих маркировок и привели их к общему стандарту.

Обеспечение качества данных

При работе над проектами масштабного парсинга веб-сайтов точность данных имеет особое значение. Мы разработали инструмент для проверки качества данных для этого конкретного проекта.

Кроме того, член нашей команды проверяет согласованность данных и точность деталей.

Более того, клиенты DataOx проверяют полученные данные на основе своего юридического опыта и вносят необходимые исправления в собранные детали, если это необходимо.

Сотрудничество между двумя независимыми командами

Команда из Польши занимается разработкой фронт-энда для нашего клиента. В то время как они работают над разработкой сайта и приложения, мы занимаемся парсингом и управлением данных в большом масштабе. Команда DataOx включает от 2 до 7 специалистов, работающих на разных этапах проекта; однако работа наших двух команд была идеально интегрирована в один успешный проект.

Таким образом, имейте в виду, что в качестве клиента вам не всегда нужна команда, которая была бы всезнайкой. Разумно выбрать лучших экспертов в каждой области и заставить их сотрудничать для достижения идеального результата.

План ротации участников команды

Как уже упоминалось, мы продолжаем поддерживать проект, и над ним работают два специалиста на постоянной основе. Однако такая работа больше похожа на рутину, и мы мотивируем наших сотрудников постоянно развиваться, поэтому у нас есть план ротации экспертов для этого проекта. Один специалист меняется каждые шесть месяцев, в то время как другой делится своими знаниями о проекте. Таким образом, мы поддерживаем гладкую и эффективную работу над проектом в любое время.

Хранение данных проекта

Проект уже идет пять лет, и работа все еще продолжается. В нем участвовали различные команды и эксперты в разное время, и многие проблемы были решены для успешного выполнения работы. Однако невозможно помнить все детали проекта, технические аспекты и тонкости такого обширного проекта. Поэтому мы создали базу данных проекта в Confluence, чтобы ее детали могли быть обновлены в любое время любым экспертом.

Результат

Что насчет результата?

Сервис успешно работает в Соединенных Штатах с 2015 года и уже достиг оборота около 10 миллионов долларов. Наш клиент начал расширять свой бизнес за пределами США, и мы начали парсить европейские и азиатские рынки труда для этой цели.

Благодаря этому сервису рекрутеры в США имеют доступ к полной базе данных адвокатов, могут искать необходимых кандидатов, фильтровать свой поиск по нескольким параметрам и выбирать лучшего кандидата из нескольких специалистов. Более того, благодаря анализу определенных параметров, они могут предсказать правильный момент для предложения кандидату новой работы.

Заключительные мысли

Парсинг больших объемов данных открывает огромные возможности для стартапов, сферы рекрутинга и поиска работы. DataOx обладает ценным опытом в этой области и глубоким пониманием процесса. Мы можем гарантировать вам точные и всесторонние данные, так как знаем, как собирать, проверять и обогащать информацию с помощью инновационных решений.