CoderCastrov logo
CoderCastrov
ИИ

Недостатки наших подсказок — Как я не использовал GPT-4 для парсинга моего любимого веб-сайта

Недостатки наших подсказок — Как я не использовал GPT-4 для парсинга моего любимого веб-сайта
просмотров
1 мин чтение
#ИИ
Table Of Content

    В прошлый раз мы рассмотрели простую процедуру для парсинга данных из сохраненных HTML-страниц.

    Мы также столкнулись с несколькими проблемами. После экспорта в Excel или другие программы (я использовал Excel, Power BI и Numbers), данные требовали очистки.

    Вот список некоторых проблем, с которыми мы столкнулись:

    Неправильный формат Несколько форматов данных в одной ячейке Пробелы Проблемы с обработкой данных

    И так далее-

    Мой посыл здесь заключается в том, что, хотя этот процесс позволяет получить правильные данные со страницы и демонстрирует отличный потенциал, он не является лучшим для этой конкретной потребности.

    Почему? Потому что, если я заполняю свои таблицы очень небольшим количеством данных (примерно сто всего), это то, что я могу сделать самостоятельно.

    Короче говоря, количество времени и усилий, необходимых для обработки данных, полученных от GPT, больше, чем если бы я делал это сам.

    После нескольких изменений подсказок и запросов помощи у бота, кажется, что он согласен со мной:

    Похоже, мы остались сами!

    И все же.

    Метод по-прежнему действителен. Большинство проблем, с которыми мы столкнулись, были связаны с особенностями хранения числовых данных в исходном коде веб-страницы, что затрудняет их обработку. Если бы они были записаны в виде целых чисел, например 6.86M как 6860000, я сомневаюсь, что мы столкнулись бы с такими же проблемами.

    Недостаток заключается в наших подсказках.

    Я планирую продолжать экспериментировать с этим методом и посмотреть, как я могу научиться лучше его использовать. В следующий раз я хочу создать живую панель управления благодаря некоторым плагинам GPT, и я обновлю эту серию с новым методом, как только получу хорошие результаты.

    Скоро увидимся.

    Спасибо за чтение.