XPath语言在八爪鱼采集器中的运用(基础版)——以点击翻页代码为例(保姆级教程)

目录

一、打开想要爬取的网站

二、复制粘贴网站

三、打开八爪鱼采集器

四、进入页面,鼠标点击你想查询的内容,如下图所示:

五、根据右上角的操作提示来完成,如下图

六、网页翻页

七、再次打开刚才的网页界面

八、代码编写

九、将编辑好的代码放入八爪鱼采集器中


一、打开想要爬取的网站

以豆瓣读书为例:https://book.douban.com/tag/%E5%8A%B1%E5%BF%97

二、复制粘贴网站

三、打开八爪鱼采集器

步骤:新建-自定义任务-手动输入下的文本框里粘贴网址-保存设置

四、进入页面,鼠标点击你想查询的内容,如下图所示:

五、根据右上角的操作提示来完成,如下图

选中全部子元素-选中全部相似组-元素中的数据内容

【如果不翻页,那么此时就可以不用继续往下看文章了,直接点击右上角的保存-采集,即可】

六、网页翻页

点击翻页按钮-点击“后页”-确认-完成,如图

七、再次打开刚才的网页界面

单击右键-点击检查-鼠标划到最后点击“后页”。

(这个网页是“后页”,但其他的网站是什么,大家根据实际情况看就行)如下图

八、代码编写

这里是要写一部分代码啦,很重要哦(敲黑板)

1、我们先学习一下这条代码的XPath语言逻辑与注解

1、/或//:选取元素的符号,也表示不论后面的元素在html中的任何位置,均选取该元素(也就是所查询那节代码开头的第一个“单词”)

如下图的代码:<a href "/tag/励志?start=20&ty.pe=T">后页></a>

那么开头的单词就是“a”

因此写为://a[ ]

因为“后页”是文本爬取,所以需要用taxt这个特殊函数(特殊原因:用不上@符号,关于@符号文章后面会提,这里不做过多阐述)

所以翻页代码如下

//a[text()="后页>"]

这就是最简单的XPath代码逻辑,在搜索框写完后,通过看代码页面有没有显示黄色标注(如下图),如没有,则代码有错,再仔细核对修改;如有,则可继续看步骤九了。

补充:2、@:选取属性(写在属性前面)

如图的代码(这个代码是我额外补充的知识点,和例子八爪鱼爬取翻页关系不大,但很实用):<body class="b_respl b_sbText"

那么属性就是:class

因此写为://body[ @class="b_respl b_sbText"]

通过看代码页面有没有显示黄色标注(如下图),如没有,则代码有错,再仔细核对修改;如有,则可继续看步骤九了。

九、将编辑好的代码放入八爪鱼采集器中

因为我是以:如何使网页在八爪鱼采集器中翻页为例,所以再次进入开始打开的爬取界面,

“点击翻页”-基础设置-元素XPath-拼接循环项XPath-复制粘贴步骤八测试出的代码-点击“应用”

即可,如图

ps:测试自己有没有翻页成功:点击“循环翻页”-“点击翻页”-再次点击“循环翻页”-再次点击“点击翻页”。然后观察网页界面,会发现网页跳转到第二页了,恭喜!说明翻页成功!

### 使用八爪鱼工具实现京东评论的自动翻页采集 为了使用八爪鱼工具完成京东评论数据的多页采集,需遵循特定的操作流程来设置自动化任务。当配置好初始页面加载后,重点在于识别分页机制以及如何模拟用户交互行为以触发下一页内容的加载。 #### 配置起始URL与初始化环境 在八爪鱼界面内指定目标网站地址作为入口点,对于京东商品评论而言,通常该链接会指向具体产品的评价列表部分。如,如果要抓取某款手机的全部反馈,则应定位至相应的产品ID对应的评论板块[^1]。 ```plaintext https://club.jd.com/comment/productPageComments.action?productId=产品编号&score=0&sortType=5&page=当前页码&pageSize=10 ``` 此模板中`产品编号`代表所关注的商品唯一标识符;而`page`参数决定了请求的具体页数。因此,在构建基础URL时务必确认这些变量已被正确填充。 #### 设置循环结构处理多页数据 由于单次HTTP请求仅能获取有限数量的结果,默认情况下可能只返回前几条评论记录。为此,需要引入迭代逻辑以便连续访问后续各层信息: - **定义范围**:确定总共有多少个待遍历页面。这可以通过预先分析API响应头中的最大页数值获得,或者基于实际测试设定一个合理的上限。 - **更新查询字符串**:随着每次循环执行,动态调整URL里的`page`字段值,从而确保每一次新的调用都能接收到不同批次的数据集[^3]。 #### 实现自动化翻页功能 为了让整个过程更加流畅高效,可以利用八爪鱼内置的功能模块简化操作步骤。比如,通过“提取器”组件解析HTML文档节点,精准锁定包含有用资讯的部分;借助“动作录制器”,模仿真实用户的浏览习惯——如滚动条拉动、按钮点击等事件,促使服务器端推送更多未展示的内容片段给客户端显示出来[^2]。 最后值得注意的是,在开展此类活动之前应当仔细阅读平台的服务条款,确保所有行动都在合法合规的前提下进行,并尊重对方关于robots.txt文件里声明的各项限制条件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值