爬取中国医生的短评并制作词云

中国医生短评词云:情感分析与评价挖掘
本文通过爬虫技术抓取豆瓣电影《中国医生》的用户评论,去除非关键信息后,分析并制作词云,揭示观众对医生角色的真实反馈,为学妹提供观影意见。

爬取中国医生的短评

今天早上,学妹发来信息问:中国医生好不好看。像我这种这喜欢看黑丝怎么会看正经电影呢。但学妹既然问了,我怎么着也得给他答复。于是我看看了短评,褒贬不一。为了不能糊弄学妹,于是我打算用爬虫爬取影评制作词云来分析。在这里插入图片描述

观察网址

这是要爬取的网址:
‘https://movie.douban.com/subject/35087699/comments?start=0&limit=20&status=P&sort=new_score’
经过我的的观察,第一页start=0,第二有页start=20,依次。
这样就好办了

直接上代码
import requests 
from lxml import etree
import jieba
import wordcloud
import itertools
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
}
pl_list=[]#存放影评
cut_pllist=[]#存放用jieba分割后的影评
for i in range(0,20*20,20):#这里就线爬取20页
    url = 'https://movie.douban.com/subject/35087699/comments?start={}&limit=20&status=P&sort=new_score'.format(i)
    r = requests.get(url=url,headers=headers).text
    tree = etree.HTML(r)
    pl = tree.xpath('//span[@class="short"]/text()')
    pl_list.append(pl)
pl_list = list(itertools.chain.from_iterable(pl_list))#一行式展平列表
#分词
for j in pl_list:
    a= jieba.lcut(j)
    cut_pllist.append(a)
cut_pllist = list(itertools.chain.from_iterable(cut_pllist))
pl_text = ' '.join(cut_pllist)
#制作词云
pl1 = wordcloud.WordCloud( font_path="msyh.ttc",width=1000,height=700,max_words=50)
pl1.generate(pl_text)
pl1.to_file('5.png')

这是运行出来的图片:
在这里插入图片描述
我一看,怎么这么多无关内容呢。在优化一下。
于是,我将这些没用的词语在列表中删除:

def delet(alist,str1):
    for i in alist:
        if i ==str1:
            alist.remove(i)
    return alist
cut_pllist = delet(cut_pllist,'的')
cut_pllist = delet(cut_pllist,'了')
cut_pllist = delet(cut_pllist,'电影')
cut_pllist = delet(cut_pllist,'我')
cut_pllist = delet(cut_pllist,'是')
cut_pllist = delet(cut_pllist,'和')
cut_pllist = delet(cut_pllist,'在')
cut_pllist = delet(cut_pllist,'我们')
cut_pllist = delet(cut_pllist,'很')
cut_pllist = delet(cut_pllist,'都')
cut_pllist = delet(cut_pllist,'人')
cut_pllist = delet(cut_pllist,'也')

再次运行:
在这里插入图片描述
发现好多了。这下可以交代了。跟学妹说了之后,她向我发出了感谢:
在这里插入图片描述


若果你觉得你对你有用就点个赞呗。
关注我,分享更多爬虫知识。

六自由度机械臂ANN人工神经网络设计:正向逆向运动学求解、正向动力学控制、拉格朗日-欧拉法推导逆向动力学方程(Matlab代码实现)内容概要:本文档围绕六自由度机械臂的ANN人工神经网络设计展开,详细介绍了正向与逆向运动学求解、正向动力学控制以及基于拉格朗日-欧拉法推导逆向动力学方程的理论与Matlab代码实现过程。文档还涵盖了PINN物理信息神经网络在微分方程求解、主动噪声控制、天线分析、电动汽车调度、储能优化等多个工程与科研领域的应用案例,提供了丰富的Matlab/Simulink仿真资源和技术支持方向,体现了其在多学科交叉仿真与优化中的综合性价值。; 适合人群:具备一定Matlab编程基础,从事机器人控制、自动化、智能制造、电力系统或相关工程领域研究的科研人员、研究生及工程师。; 使用场景及目标:①掌握六自由度机械臂的运动学与动力学建模方法;②学习人工神经网络在复杂非线性系统控制中的应用;③借助Matlab实现动力学方程推导与仿真验证;④拓展至路径规划、优化调度、信号处理等相关课题的研究与复现。; 阅读建议:建议按目录顺序系统学习,重点关注机械臂建模与神经网络控制部分的代码实现,结合提供的网盘资源进行实践操作,参考文中列举的优化算法与仿真方法拓展自身研究思路。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值