CoderCastrov logo
CoderCastrov
Обработка естественного языка (NLP)

{NLP.0} Парсинг английских данных в сети

{NLP.0} Парсинг английских данных в сети
просмотров
0 мин чтение
#Обработка естественного языка (NLP)
Table Of Content

    Привет. В этой статье представлен способ парсинга статей сети CNN (Cable News Network) с использованием ее поискового API.

    Пожалуйста, используйте Python 3.x.

    import requests
    import json
    sess = requests.Session()
    url = "https://search.api.cnn.io/content?sort=newest&size=100&from="
    txt_list = []; txt_append = txt_list.appendnum_articles = 1000 # это число зависитот i in range(1, num_articles, 100):
        source = sess.get(url+str(i)).json()
        source = ["result"]
        for s in source:
            txt_append(s['body'])txt_list = [t.replace("\\","") for t in txt_list if t is not None]

    Вот и все. Объект-список txt_list содержит текстовые данные, которые вам нужны.