有关 xpath 的原始文档为: http://www.w3.org/TR/xpath/
w3schools 的文档为: http://www.w3schools.com/xpath/xpath_syntax.asp
英文不好的同学可看这篇: http://blog.youkuaiyun.com/mynameisyoudi/article/details/2692061
以前用 firefox 扩展 autopager 时就接触过不少 xpath, 但般使用 autopager 里的 "链接(内容)选择器" 可以很方便的获取 xpath, 所以也没有深入的观察过;最近需要抓取网页, 有些 xpath 需要自己手写, 碰到了几百个 xpath 之后也总算有些许心得,以下只是举例说明,如果想深入了解请看上面三篇文章;
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book isbn="9787544253956">
<title lang="chs">Xpath 入门</title>
<price>29.99</price>
</book>
<book isbn="9787538288858">
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
获得第一个 book 节点,xpath 为: //book[1] 或 //book[@isbn="9787544253956"]
获得第二个 book 节点,xpath 为: //book[2] 或 //book[@isbn="9787538288858"]
获得第一个 book 节点下面的 title 节点的 lang 属性, xpath为://book[1]/title[1]/@lang
获得第一个 book 节点下面的 title 节点的 文本, xpath为://book[1]/title[1]/text()
总结:
- xpath 由 // 开始,往后每一层/ 代表一层父子节点关系
- 每层里如果有相同的节点, 则可以由下标, 或 [] 里的属性进行标识
- 属性由 @xxx 表示, 后面跟的是属性的值, 之间可以是=, >, < 等比较符
- 取得一个节点的 text 值, 由 text() 完成
- [] 里面可以有多个属性, 多个属性之间由and, or 连接