CoderCastrov logo
CoderCastrov
Парсер

Inception — Данные о хакатоне данных.

Inception — Данные о хакатоне данных.
просмотров
4 мин чтение
#Парсер

Вот уже неделю прошло с тех пор, как прошел "Битва данных". Этот хакатон от Итау и Shawee оставил незабываемые впечатления, волнение и желание еще и еще!

Чтобы понять мое волнение, две бессонные ночи в дороге, 30 часов без сна, много головоломок и смеха. Наконец-то я вернулся домой и, конечно же, сразу же взялся за...

НЕТ! Я взял книгу по анализу данных и начал поглощать!!!!

И, конечно же, эта первая хакатон-подобная эксперимент не могла закончиться так просто. Я уже некоторое время пишу общие коды для упрощения использования ботов для парсинга или тестирования веб-сайтов. Кстати, перед поездкой я пытался спарсить личные страницы участников в социальной сети, давайте назовем ее "Dino Connection", так почему бы не продолжить?

Поехали!

Конечно же, "Дино" не так просто отдает свои данные, и как хороший программист я не мог пройти мимо этого вызова. После множества головоломок, фрустрации и изучения ( #$@&%*! ДИНО!) У меня получилось! Аллилуйя! Я спарсил страницы.

Минимальная модель парсинга выглядит так, как показано на диаграмме, сохраняя данные в MongoDB и динамически создавая поля в соответствии с HTML.

Теперь, когда у меня была эта информация, я начал обрабатывать и анализировать данные, и пришел к некоторым "полезным" значениям.


Сначала я сосредоточился на том, сколько людей из каждой профессиональной области было выбрано. После некоторого анализа "набора данных" я пришел к выводу, что могу разделить людей на следующие группы:


Коммуникация\Маркетинг - Редакторы, Digital Media, Маркетинг,...
Дизайн - UX, UI, Дизайнеры...
Данные - Аналитики, Инженеры и Ученые-исследователи данных, BI,...
Образование - Исследователи, Преподаватели, Стипендиаты,...
IT - Разработчики, Системные аналитики,...
Другие - Менеджеры, Основатели, Предприниматели и все остальные

С этими обработанными и классифицированными данными я создал график занятости участников и областей, в которых они работают.

Интересно заметить, что на хакатоне действительно было много людей, работающих с данными.


В нашей группе WhatsApp "Битва" было много разговоров о статьях, магистратуре и академических вопросах. Поэтому я решил изучить данные о образовании участников.

Используя некоторые ключевые слова и приоритезируя более высокие категории (докторат>магистратура>...>другие), я разделил людей на группы в зависимости от уровня их последнего образования и категоризировал ситуацию с этим образованием.

Имея эти данные, я получил следующую диаграмму:

Действительно, у многих людей есть уровень образования выше бакалавриата, особенно поздравляю тех, кто имеет степень доктора!


Теперь перейдем к более конкретному и личному.

Я работаю в области данных менее двух лет, считаю себя новичком. Но после хакатона я вернулся с уверенностью, видя, что смог многое внести в команду и даже стал финалистом. Итак, я решил ответить на вопрос "Являюсь ли я новичком?!" Учитывая только область данных без опыта в IT, я получил эту диаграмму:

И удивление! 50% людей имели менее 3 лет опыта. Несмотря на это небольшое количество времени, мы представили невероятные решения менее чем за 30 часов... Поздравляю!

Однако практика имеет значение, и это видно по тому, что тот человек, который отличался и имел большой опыт, был участником победившей команды на хакатоне.


Хорошо! Много данных, интересные визуализации, так что для завершения, не очень количественная, но забавная визуализация, "облако слов". Я хотел узнать, какие навыки наиболее распространены в области данных, и получил следующее облако:

И, конечно же, классические навыки данных выделяются. SQL, старый друг каждого администратора баз данных и старая школа запросов, Python, этот прекрасный многофункциональный язык, который позволил написать этот пост. Кроме того, появляются и другие теги, но я считаю, что, так как выборка небольшая, нужно более детально проанализировать их важность в каждой конкретной области.


Вот и все, замечательный хакатон, бесконечное желание поехать в Сан-Паулу, новый личный проект для продолжения и мой первый пост на Medium.

Спасибо, Битва, спасибо, Shawee, и спасибо этим четырем ребятам André Caetano Lun, Eduardo Mesquita, Vitor Chein и José Guilherme Oliver и теперь давайте продолжим работать над нашим проектом.


Некоторые детали о посте:

Оценка времени для получения данных:

Некоторая информация о том, как я создал этот пост.

p.s: графики не отображаются в мобильной версии, поэтому я решил опубликовать изображения и добавить ссылку на интерактивную диаграмму в подписи.