Python学习笔记(13) 爬虫模拟点击抓取京东商品评论

最新推荐文章于 2025-09-04 08:03:39 发布

原创

最新推荐文章于 2025-09-04 08:03:39 发布 · 1.3k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Python #爬虫 #数据挖掘

本文介绍了如何使用Python爬虫模拟点击京东商品页面的评论区，通过创建两级规则来实现精准抓取。首先创建第一级规则，负责打开网页并模拟点击进入评论区，然后创建第二级规则，用于抓取评论内容。在实际操作中，包括标注内容、映射翻页区和翻页记号、修改目标主题名等步骤，确保爬虫能正确执行并获取所需数据。

有些网站是一开始不显示评论，需要点击累计评论才会显示出评论区的内容，比如蘑菇街；另外一些网站是要滚屏很久才显示出评论内容，比如淘宝京东，这两类情况下都要做模拟点击，直接点开评论区再做采集，这样做的好处是，可以精确到目标范围，省却没必要的加载时间，下面以采集京东商品累计评论为例，介绍一下怎么做模拟点击。

在做抓取规则时需要做两级规则实现模拟点击，第一级规则负责点击，第二级规则负责抓取点击后显示的内容。

模拟点击和翻页抓取类似，都需要在爬虫路线中设置记号线索，不同的是，点击翻页之后，在同一爬虫窗口继续用当前规则进行抓取；而模拟点击则是，点击网页后，在同一爬虫窗口调用下一级规则进行抓取。

一、创建第一级规则

1，打开网页

我们首先用GS浏览器访问一个商品样本页面，记得先不要点进评论区，然后点击顶部的“定义规则”按钮，开始做第一级规则。

2，标注抓取内容

第一级规则的主要目的是实现模拟点击，可以不抓取任何内容，但是为了判读是否执行成功，我们通常会抓取任意网页信息，并且设置关键内容。这里选择抓取商品名称，双击它，然后输入标签名字，打勾确认，前面没有输入主题名，所以会提醒输入主题名和整理箱名字，输入完再做下一步。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。