一、操作步骤
如果网页上有搜索框,但是搜索结果页面没有独立网址,想要采集搜索结果,直接做规则是采集不到的,要先做连续动作(输入+点击)来实现自动输入关键词并搜索,然后才能采集数据。下面用京东搜索为例,演示自动搜索采集,操作步骤如下:
二、案例规则+操作步骤
- 第一级采集规则:连续动作_京东搜索
- 第二级采集规则:京东空调列表
- 样本网址: https://list.jd.com/list.html?cat=737,794,870
- 采集内容:京东商品的名称、价格、链接
注意:本案例京东搜索是有独立网址的,对于具有独立网址的页面,最简单的方法就是构造出每个关键词的搜索网址,然后把线索网址导入到规则里,就可以批量采集,而不是设置连续动作
第一步:定义第一级规则
1.1打开集搜客网络爬虫,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则;
注意:这里的截图和文字说明都是集搜客网络爬虫版本,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台
1.2在工作台中输入一级规则的主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。
1.3本级规则主要是设置连续动作,所以,整理箱可以随意抓取一个信息,用来给爬虫判断是否执行采集。双击网页上的信息,输入标签名,并打勾确认,再勾上关键内容,首次标注还要输入整理箱的名字,然后就完成标注映射了。
Tips:为了能准确定位网页信息,点击定义

本文通过一个案例介绍了如何使用Python进行自动搜索关键词并在京东网站上采集商品信息。步骤包括定义规则、设置连续动作、创建输入和点击动作、定义二级规则以及抓取数据。通过集搜客网络爬虫工具,实现了从搜索到采集的自动化过程。
最低0.47元/天 解锁文章
484

被折叠的 条评论
为什么被折叠?



