XPath,全称是 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索。
所以在做爬虫时,我们完全可以使用 XPath 来做相应的信息抽取。
XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过 100 个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点,都可以用 XPath 来选择。
XPath 于 1999 年 11 月 16 日成为 W3C 标准,它被设计为供 XSLT、XPointer 以及其他 XML 解析软件使用,更多的文档可以访问其官方网站:https://www.w3.org/TR/xpath/。
XPath 常用规则
下表列举了 XPath 的几个常用规则。

运算符及其介绍

本文介绍了XPath,一种在XML和HTML文档中查找信息的语言,常用于爬虫的信息抽取。XPath的选择功能强大,提供内建函数支持各种操作,并于1999年成为W3C标准。文中概述了XPath的常用规则和运算符。
492

被折叠的 条评论
为什么被折叠?



