火车头如何把标题加html标签,火车头采集中内容页及标签Xpath可视化提取功能的使用...

在上一篇文章《火车头采集中列表页及标签Xpath可视化提取功能的使用》中,我们讲解了火车头采集器如何利用Xpath来采集列表页。今天,我们就说说如何火车头采集器如何利用Xpath来采集内容页面!

212cf3877a0130b5cb158ea91988cb58.png

新建标签,提前数据方式选择,“可视化提取”选项 ,如下图:

f82d20a2ae7e9ff19ec49ea704ade43c.png

同样点击“通过XPath浏览器获取” 按钮。

和上面获取地址一样的,输入地址,访问要采集的地址,如下图:

3e87e237f825827d6a9ef0d4190a06e2.png

然后点击图标开始选择,我们这里用获取标题为例说明。

ad2f2cb5950f1f049de69a5f56066259.png

淡蓝色框选中标题,轻轻点击鼠标,然后测试看下是否正确。如果正确点击确定按钮。这个不像采集地址的时候需要做2遍。如果测试弹出:

b49696c3aab20f690968e9f3a99c0771.png

这个就是说明这个页面不能使用这个方式获取。

点击确定后如下图:

9bddeab6511282ded5a17c29a3d2cf6e.png

获取这个标题的表达式就自动填写在这里了。我们测试下结果:

c3d28703bc64a776a4b9650584cb9dbb.png

结果是正确的。别的其他信息都可以通过这个方式获取。

有个节点属性如下图:

21c6fb3dd8f2b305c852b802fa9a81b1.png

这个是也是专业术语,大家可以查资料了解下,一般选中InnerHtml和 InnerText 就可以获取到文字信息了,需要了解更多,自行查找资料。

选择“Href”是获取链接地址,选择“OuterHtml”是获取文字和包含的html代码。大家如果不明白可以实际操作测下结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值