CoderCastrov logo
CoderCastrov
Википедия

парсинг данных из дампов Википедии

парсинг данных из дампов Википедии
просмотров
0 мин чтение
#Википедия
Table Of Content

    Это очень редкая тема, когда мне понадобилось впервые выполнить парсинг, мне потребовалось достаточно времени, чтобы сделать это, не потому что это сложно, а из-за отсутствия доступных учебников по этой теме.

    Для начала вам нужно определить, какие дампы вам нужны и почему, вы можете найти дампы Википедии здесь https://dumps.wikimedia.org/ или https://dumps.wikimedia.org/enwiki/. В моем случае меня интересовали только новостные статьи, поэтому я использовал этот URL https://dumps.wikimedia.org/enwikinews/.

    Весь ноутбук загружен здесь https://github.com/shainaraza/news-recommender-system/blob/master/downloading_and_parsing_wikinews.ipynb

    Добро пожаловать к добавлению больше информации.

    Шайна