CoderCastrov logo
CoderCastrov
Открытый исходный код

Гусь. Начало истории...

Гусь. Начало истории...
просмотров
2 мин чтение
#Открытый исходный код

Привет, меня зовут Андрей. Я хочу рассказать вам о своем первом опыте работы с открытым исходным кодом и о проекте, который был разработан - Goose Parser.

redco/goose-parser

Универсальный инструмент для парсинга, который позволяет извлекать данные с использованием нескольких сред - redco/goose-parser

github.com

Вернемся к концу 2015 года, когда начинается эта история. Я работал в качестве старшего PHP-разработчика в одной туристической компании, назовем ее "D". И в тот момент у меня не было опыта работы с Node.js. Я выбрал этот язык из-за множества полезных инструментов, таких как PhantomJS, Puppeteer и другие с хорошими API и функциональностью для работы с веб-страницами.

Назвать это

Итак, почему ему было дано такое странное имя, как Гусь?! Хороший вопрос. Оригинальное название было — Fantastic Unified Crawler Kit (Фантастический единый набор для парсинга), вы можете себе представить аббревиатуру для этого названия. Это было достаточно забавно, но нечто, что можно продвигать и продавать как продукт, слишком мрачно... Примерно в то время у меня была возможность поработать в лондонском офисе D на несколько недель. Мне очень понравились люди, сообщество TravelTech, город, пабы, парки и особенно множество разных животных, которые свободно приходили и уходили в зеленых зонах города. Белки, гуси, лебеди, олени... Наконец, я пошел в магазин игрушек Hamleys и нашел куклу-гуся. У нее был свой характер и точка зрения. Так что было принято окончательное решение и название проекта было изменено. Некоторое время спустя мы сняли короткий видео-трейлер о Гусе. Вот он:

Если быть честным, на рынке уже существует множество существующих фреймворков для парсинга. И Гусь должен был стать одним из них. Однако, мы планировали создать что-то, что можно запустить самостоятельно, а также масштабировать до платформы, где вы можете выполнять скрипты парсинга в облаке, делиться ими с кем угодно и даже продавать их на рынке.

Особенности

Итак, давайте более подробно рассмотрим функции, которые может предоставить Goose:


Пусть он кодит

Вот простой пример того, как Goose может извлекать веб-информацию для вас.

И вот пример использования через командную строку (на основе Docker):

Итоговые мысли

Goose - это красивый фреймворк для парсинга веб-страниц, который был создан как инструмент с открытым исходным кодом в одном репозитории. Позже, части Goose были перемещены в отдельные репозитории, чтобы уменьшить размер исходной библиотеки и позволить выполнение парсера в различных средах. У него есть множество полезных функций, и его можно запустить как контейнер Docker, что значительно упрощает процесс разработки новых парсеров.

Интересно попробовать?

Если да, то перейдите на goose.show, чтобы узнать больше деталей! Это бесплатно и с открытым исходным кодом!

Если у вас есть вопросы или отзывы, вы можете:

Спасибо за ваше время!