“蚁”小见大,数据告诉你《蚁人2》是否值得一看

本文分享了一次使用Python爬取豆瓣电影《蚁人2》短评的全过程,详细解析了如何克服挑战,最终成功获取500条短评数据,并通过文本分析揭示观众反馈的深层次含义。

2172396fb4e14ac3c00d2f35776fde041670e93c
并没有成功爬到所有的短评,一波三折,最终只爬到了500条,当然这也是豆瓣目前可见的最大数量,本文将细致分析爬虫的整个过程,并对爬到的数据加以分析,蚁小见大。

整篇文章共包含爬和文本分析两部分,因为爬到的数据包含信息较少,所以分析过程相对简单,包含描述统计分析、情感分析和分词词云,主要代码在各部分给出,需要完整代码和爬到的数据请在后台回复"蚁人2爬虫",可以直接运行。

1. 爬虫部分

首先说明一下目标和工具

软件:python3.6

packages:selenium jieba snownlp wordcloud

后三个是之后文本分析用的。

目标网址:

https://movie.douban.com/subject/26636712/comments?status=P

3914a64a364e66a28bea945632b402efbe54bc95

豆瓣上的影评分两种,一种是长篇大论的影评,还有一种是短评,类似上图中,这次爬虫的目标就是上图中红色框线中的短评,信息包括用户名,星级评价,日期,有用数,评论正文,虽说主页显示45576条,但其实可见的只有500条,每页是20条短评,多一条都不给,手动去点,点到25页之后就没有任何信息了。

转载于:https://my.oschina.net/u/3611008/blog/2051449

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值