火车头如何把标题加html标签,火车头采集中内容页及标签Xpath可视化提取功能的使用...

denniszyang

于 2021-06-26 09:32:48 发布

阅读量1.2k

点赞数

文章标签：火车头如何把标题加html标签

在上一篇文章《火车头采集中列表页及标签Xpath可视化提取功能的使用》中，我们讲解了火车头采集器如何利用Xpath来采集列表页。今天，我们就说说如何火车头采集器如何利用Xpath来采集内容页面！

新建标签，提前数据方式选择，“可视化提取”选项，如下图：

同样点击“通过XPath浏览器获取” 按钮。

和上面获取地址一样的，输入地址，访问要采集的地址，如下图：

然后点击图标开始选择，我们这里用获取标题为例说明。

淡蓝色框选中标题，轻轻点击鼠标，然后测试看下是否正确。如果正确点击确定按钮。这个不像采集地址的时候需要做2遍。如果测试弹出：

这个就是说明这个页面不能使用这个方式获取。

点击确定后如下图：

获取这个标题的表达式就自动填写在这里了。我们测试下结果：

结果是正确的。别的其他信息都可以通过这个方式获取。

有个节点属性如下图：

这个是也是专业术语，大家可以查资料了解下，一般选中InnerHtml和 InnerText 就可以获取到文字信息了，需要了解更多，自行查找资料。

选择“Href”是获取链接地址，选择“OuterHtml”是获取文字和包含的html代码。大家如果不明白可以实际操作测下结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。