开发工具
pycharm
第三方放库
requests模块
pip install reqeusts 网络请求库
parsel模块
pip install parsel 数据解析库
词云模块
pip install wordcloud 词云库
pip install jieba 分词库
代码分析
1、获取评论页的内容
url = 'https://movie.douban.com/subject/34841067/comments?status=P'
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'}
rest = requests.get(url=url, headers=header) # 携带请求头
2、数据解析
result = parsel.Selector(rest.text) 将html网页数据进行解析
result_s = result.xpath("//span [@class = 'short']/text()") 使用xpath进行数据匹配
3、将内容写入文本
f = open('你好,李焕英.txt', 'a', encoding='utf-8') # 打开文件
for item in result_s:
f