python+Xpath爬取英文新闻并生成文档词频矩阵

最新推荐文章于 2022-06-13 12:14:39 发布

原创

最新推荐文章于 2022-06-13 12:14:39 发布 · 3.2k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #文本处理 #nltk #re

本文档介绍了使用Python进行网络爬虫，结合XPath从新华网获取Business - Finance类新闻，然后对新闻内容进行预处理，包括去除数字、非英文字符、停用词等，再利用nltk进行词形还原。接着，生成文本的词频矩阵，保留词频大于5的词汇，并展示前20个高频词。最后，利用wordcloud绘制词云图，展示了从数据抓取到词频分析的完整流程。

详情见我的github：https://github.com/Snowing-ST/Statistical-Case-Studies/tree/master/Lab3%20English%20Text%20Processing

1.爬取新华网Business - Finance类别的新闻url

由于新华网是动态网站，不能直接爬取，所以通过检查找到实际保存新闻摘要列表的网址,里面的信息均用json格式保存。

import requests
import json
from selenium import webdriver
from lxml import etree
import time
import os
import pandas as pd
import numpy as np
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer #词形变化
from sklearn.feature_extraction.text import CountVectorizer

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400',
}
url = 'http://qc.wa.news.cn/nodeart/list?nid=11143416&pgnum=1&cnt=50&tp=1&orderby=1?callback=jQuery111307913713753952403_1522322711817&_=1522322711818'

data = requests.get(url, headers=headers)
data.encoding
html=data.content
dic_html = html[42:(len(html)-2)] #提取json文本
url_num = len(json.loads(dic_html)["data"]["list"]);url_num  #50条url
def geturls(i):

最低0.47元/天解锁文章