我们在购物网站浏览商品时,通常可以有多种组合的购买,对同一个商品选择颜色、尺码等等,会得到不同的价格。那么,如果把人的点击行为变成机器自动点击,要如何实现呢?
通过连续动作能够模拟人在浏览网页时的操作,从而逐个点击进行数据抓取。现在不少动态网页需要交互操作,才能浏览到最终数据,而连续动作的目的就是模拟人在浏览网页时的操作,从而得到最终显示出来的数据。
要模拟人的操作,我们首先要清楚是经过哪些交互操作才能显示出最终数据。例如浏览京东上小米Max的商品页面,我们是依次选择颜色、版本、购买方式1、购买方式2后,才能看到最终价格的,所以,按这个操作的话,要设置4步动作,这里的动作类型都是点击,明确了这些以后,下面教大家用MS谋数台的连续动作来做规则,实现自动点击。
根据上面的描述,有以下两种采集方案,下面我们采用方案1来实现自动点击和采集。
样本网址: https://item.jd.com/2897526.html
注意:如果动作执行前后的网页结构没有变化,可以用一个规则来完成;网页结构前后变化的话,必须用两个或以上的规则来完成;另外涉及翻页的话,也要拆成两个或以上的规则。关于连续动作要做多少个规则请查阅文章《规划采集流程》。
一、建立第一级主题抓取目标信息
建立第一级主题的规则,把想要的信息映射到整理箱中,建议做完内容映射后,也做上定位标志映射,可以提高定位准确性和规则适应性。
注意:设置了连续动作的规则可以不建整理箱,