有些网站是一开始不显示评论,需要点击累计评论才会显示出评论区的内容,比如蘑菇街;另外一些网站是要滚屏很久才显示出评论内容,比如淘宝京东,这两类情况下都要做模拟点击,直接点开评论区再做采集,这样做的好处是,可以精确到目标范围,省却没必要的加载时间,下面以采集京东商品累计评论为例,介绍一下怎么做模拟点击。


在做抓取规则时需要做两级规则实现模拟点击,第一级规则负责点击,第二级规则负责抓取点击后显示的内容。
模拟点击和翻页抓取类似,都需要在爬虫路线中设置记号线索,不同的是,点击翻页之后,在同一爬虫窗口继续用当前规则进行抓取;而模拟点击则是,点击网页后,在同一爬虫窗口调用下一级规则进行抓取。
一、创建第一级规则
1,打开网页
我们首先用GS浏览器访问一个商品样本页面,记得先不要点进评论区,然后点击顶部的“定义规则”按钮,开始做第一级规则。

2,标注抓取内容
第一级规则的主要目的是实现模拟点击,可以不抓取任何内容,但是为了判读是否执行成功,我们通常会抓取任意网页信息,并且设置关键内容。这里选择抓取商品名称,双击它,然后输入标签名字,打勾确认,前面没有输入主题名,所以会提醒输入主题名和整理箱名字,输入完再做下一步。

本文介绍了如何使用Python爬虫模拟点击京东商品页面的评论区,通过创建两级规则来实现精准抓取。首先创建第一级规则,负责打开网页并模拟点击进入评论区,然后创建第二级规则,用于抓取评论内容。在实际操作中,包括标注内容、映射翻页区和翻页记号、修改目标主题名等步骤,确保爬虫能正确执行并获取所需数据。
最低0.47元/天 解锁文章
1384

被折叠的 条评论
为什么被折叠?



