xpath路径表达式笔记

原文链接:http://www.ruanyifeng.com/blog/2009/07/xpath_path_expressions.html

简单说,xpath就是选择XML文件中节点的方法。

所谓节点(node),就是XML文件的最小构成单位,一共分成7种。

- element(元素节点)
- attribute(属性节点)
- text (文本节点)
- namespace (名称空间节点)
- processing-instruction (处理命令节点)
- comment (注释节点)
- root (根节点)

xpath可以用来选择这7种节点。不过,下面的笔记只涉及最常用的第一种element(元素节点),因此可以将下文中的节点和元素视为同义词。

一、xpath表达式的基本格式

xpath通过"路径表达式"(Path Expression)来选择节点。在形式上,"路径表达式"与传统的文件系统非常类似。

# 斜杠(/)作为路径内部的分割符。

# 同一个节点有绝对路径和相对路径两种写法。

# 绝对路径(absolute path)必须用"/"起首,后面紧跟根节点,比如/step/step/...。

# 相对路径(relative path)则是除了绝对路径以外的其他写法,比如 step/step,也就是不使用"/"起首。

# "."表示当前节点。

# ".."表示当前节点的父节点

二、选择节点的基本规则

- nodename(节点名称):表示选择该节点的所有子节点

- "/":表示选择根节点

- "//":表示选择任意位置的某个节点

- "@": 表示选择某个属性

三、选择节点的实例

先看一个XML实例文档。

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

  <book>
    <title lang="eng">Harry Potter</title>
    <price>29.99</price>
  </book>

  <book>
    <title lang="eng">Learning XML</title>
    <price>39.95</price>
  </book>

</bookstore>

[例1]

bookstore :选取 bookstore 元素的所有子节点。

[例2]

/bookstore :选取根节点bookstore,这是绝对路径写法。

[例3]

bookstore/book :选取所有属于 bookstore 的子元素的 book元素,这是相对路径写法。

[例4]

//book :选择所有 book 子元素,而不管它们在文档中的位置。

[例5]

bookstore//book :选择所有属于 bookstore 元素的后代的 book 元素,而不管它们位于 bookstore 之下的什么位置。

[例6]

//@lang :选取所有名为 lang 的属性。

四、xpath的谓语条件(Predicate)

所谓"谓语条件",就是对路径表达式的附加条件。

所有的条件,都写在方括号"[]"中,表示对节点进行进一步的筛选。

[例7]

/bookstore/book[1] :表示选择bookstore的第一个book子元素。

[例8]

/bookstore/book[last()] :表示选择bookstore的最后一个book子元素。

[例9]

/bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。

[例10]

/bookstore/book[position()<3] :表示选择bookstore的前两个book子元素。

[例11]

//title[@lang] :表示选择所有具有lang属性的title节点。

[例12]

//title[@lang='eng'] :表示选择所有lang属性的值等于"eng"的title节点。

[例13]

/bookstore/book[price] :表示选择bookstore的book子元素,且被选中的book元素必须带有price子元素。

[例14]

/bookstore/book[price>35.00] :表示选择bookstore的book子元素,且被选中的book元素的price子元素值必须大于35。

[例15]

/bookstore/book[price>35.00]/title :表示在例14结果集中,选择title子元素。

[例16]

/bookstore/book/price[.>35.00] :表示选择值大于35的"/bookstore/book"的price子元素。

五、通配符

# "*"表示匹配任何元素节点。

# "@*"表示匹配任何属性值。

# node()表示匹配任何类型的节点。

[例17]

//* :选择文档中的所有元素节点。

[例18]

/*/* :表示选择所有第二层的元素节点。

[例19]

/bookstore/* :表示选择bookstore的所有元素子节点。

[例20]

//title[@*] :表示选择所有带有属性的title元素。

六、选择多个路径

用"|"选择多个并列的路径。

[例21]

//book/title | //book/price :表示同时选择book元素的title子元素和price子元素。

【相关文章】

CSS选择器笔记

(完)

### 关于XPath的学习笔记与教程 #### XPath简介 XPath(XML Path Language)是一种用于在XML文档中定位和检索数据的语言。它可以通过路径表达式来导航XML树结构,从而获取所需的节点或属性[^3]。 #### 基础语法示例 以下是几个常见的XPath表达式及其功能: 1. **一般表达式** 使用路径方式选取所需元素。 ```python "/bookstore/book/title" ``` 这一表达式表示从根节点`<bookstore>`出发,找到所有的`<book>`标签下的`<title>`子节点[^2]。 2. **谓词表达式** 谓词允许进一步筛选符合条件的节点。 ```python "/bookstore/book[1]" ``` 表达式中的 `[1]` 是指第一个 `<book>` 元素;而 `/bookstore/book[last()]` 则会选中最后一个 `<book>` 元素[^2]。 3. **通配符表达式** 当不确定具体节点名称时,可以利用通配符 `*` 来匹配任意类型的节点。 ```python "/bookstore/*" "//title[@*]" ``` 上述两个例子分别代表了 bookstore 的所有直接子节点以及具有任何属性的 title 元素。 4. **轴表达式** 轴定义了一组相对当前上下文节点的关系方向。 ```python "child::book" "attribute::lang" "descendant-or-self::*" ``` 第一条命令返回的是 book 子节点集合;第二条则提取出名为 lang 的属性列表;第三种情况涵盖了本节点本身加上其全部后代节点。 5. **算术与逻辑操作** 支持基本数值计算及条件判断。 ```python "/bookstore/book[price>35.00]/title" ``` 此处仅选出价格超过 35 的书籍标题。 #### Python实现案例 下面展示如何借助第三方库lxml解析并查询HTML/XML文件内的信息: ```python from lxml import etree # 创建一个简单的 XML 文档对象模型 (DOM) root = etree.XML(""" <bookstore> <book category="cooking"> <title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> </book> <book category="children"> <title lang="zh-CN">Harry Potter</title> <author>J.K. Rowling</author> <year>2007</year> <price>29.99</price> </book> </bookstore> """) # 查找所有书名 titles = root.xpath('//book/title/text()') print(titles) # 获取特定语言版本的图书数量 english_books_count = len(root.xpath("//book[./title/@lang='en']")) print(english_books_count) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值