我们在购物网站浏览商品时,通常可以有多种组合的购买,对同一个商品选择颜色、尺码等等,会得到不同的价格。那么,如果把人的点击行为变成机器自动点击,要如何实现呢?
通过连续动作能够模拟人在浏览网页时的操作,从而逐个点击进行数据抓取。现在不少动态网页需要交互操作,才能浏览到最终数据,而连续动作的目的就是模拟人在浏览网页时的操作,从而得到最终显示出来的数据。
要模拟人的操作,我们首先要清楚是经过哪些交互操作才能显示出最终数据。例如浏览京东上小米Max的商品页面,我们是依次选择颜色、版本、购买方式1、购买方式2后,才能看到最终价格的,所以,按这个操作的话,要设置4步动作,这里的动作类型都是点击,明确了这些以后,下面教大家用MS谋数台的连续动作来做规则,实现自动点击。
根据上面的描述,有以下两种采集方案,下面我们采用方案1来实现自动点击和采集。
样本网址: https://item.jd.com/2897526.html
注意:如果动作执行前后的网页结构没有变化,可以用一个规则来完成;网页结构前后变化的话,必须用两个或以上的规则来完成;另外涉及翻页的话,也要拆成两个或以上的规则。关于连续动作要做多少个规则请查阅文章《规划采集流程》。
一、建立第一级主题抓取目标信息
建立第一级主题的规则,把想要的信息映射到整理箱中,建议做完内容映射后,也做上定位标志映射,可以提高定位准确性和规则适应性。
注意:设置了连续动作的规则可以不建整理箱,例如方案2的第一级主题可以不建整理箱,但是用整理箱抓一点数据(选择网页上一定会显示出来的信息),是为了给爬虫判断是否执行采集,否则可能漏采网页。
二、设置连续动作点击新建按钮建立一个新动作,
Python自动点击京东商品价格:智能采集连续动作教程

本文介绍了如何使用Python结合MS谋数台的连续动作功能,模拟用户在京东上选择商品颜色、版本等选项,自动点击并采集最终价格数据。通过设置连续点击动作,解决动态网页的交互采集问题,详细讲解了建立规则、调试规则以及如何确保数据对应动作步骤。
最低0.47元/天 解锁文章
5373

被折叠的 条评论
为什么被折叠?



