(转载)Xpath路径表达式笔记

本文介绍 XPath 的基本概念及使用方法,包括路径表达式的格式、选择节点的规则与实例、谓语条件的应用、通配符的选择以及多个路径的选择等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来源 http://www.ruanyifeng.com/blog/2009/07/xpath_path_expressions.html
作者: 阮一峰 2009年7月 6日


简单说,Xpath就是选择XML文件中节点的方法。
所谓节点(node),就是XML文件的最小构成单位,一共分成7种。

  • element(元素节点)
  • attribute(属性节点)
  • text (文本节点)
  • namespace (名称空间节点)
  • processing-instruction (处理命令节点)
  • comment (注释节点)
  • root (根节点)

Xpath可以用来选择这7种节点。不过,下面的笔记只涉及最常用的第一种element(元素节点),因此可以将下文中的节点和元素视为同义词。

一、Xpath表达式的基本格式

Xpath通过"路径表达式"(Path Expression)来选择节点。在形式上,"路径表达式"与传统的文件系统非常类似。

  1. 斜杠(/)作为路径内部的分割符。
  2. 同一个节点有绝对路径和相对路径两种写法。
    1)绝对路径(absolute path)必须用"/“起首,后面紧跟根节点,比如/step/step/…。
    2)相对路径(relative path)则是除了绝对路径以外的其他写法,比如 step/step,也就是不使用”/"起首。
  3. "."表示当前节点。
  4. "…"表示当前节点的父节点

二、选择节点的基本规则

  • nodename(节点名称):表示选择该节点的所有子节点
  • “/”:表示选择根节点
  • “//”:表示选择任意位置的某个节点
  • “@”: 表示选择某个属性

三、选择节点的实例

先看一个XML实例文档。

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

  <book>
    <title lang="eng">Harry Potter</title>
    <price>29.99</price>
  </book>

  <book>
    <title lang="eng">Learning XML</title>
    <price>39.95</price>
  </book>

</bookstore>

[例1]
bookstore :选取 bookstore 元素的所有子节点。

[例2]
/bookstore :选取根节点bookstore,这是绝对路径写法。

[例3]
bookstore/book :选取所有属于 bookstore 的子元素的 book元素,这是相对路径写法。

[例4]
//book :选择所有 book 子元素,而不管它们在文档中的位置。

[例5]
bookstore//book :选择所有属于 bookstore 元素的后代的 book 元素,而不管它们位于 bookstore 之下的什么位置。

[例6]
//@lang :选取所有名为 lang 的属性。

四、xpath的谓语条件(Predicate)

所谓"谓语条件",就是对路径表达式的附加条件。
所有的条件,都写在方括号"[]"中,表示对节点进行进一步的筛选。

[例7]
/bookstore/book[1] :表示选择bookstore的第一个book子元素。

[例8]
/bookstore/book[last()]:表示选择bookstore的最后一个book子元素。

[例9]
/bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。

[例10]
/bookstore/book[position()<3]:表示选择bookstore的前两个book子元素。

[例11]
//title[@lang] :表示选择所有具有lang属性的title节点。

[例12]
//title[@lang='eng'] :表示选择所有lang属性的值等于"eng"的title节点。

[例13]
/bookstore/book[price] :表示选择bookstore的book子元素,且被选中的book元素必须带有price子元素。

[例14]
/bookstore/book[price>35.00] :表示选择bookstore的book子元素,且被选中的book元素的price子元素值必须大于35。

[例15]
/bookstore/book[price>35.00]/title :表示在例14结果集中,选择title子元素。

[例16]
/bookstore/book/price[.>35.00] :表示选择值大于35的"/bookstore/book"的price子元素。

五、通配符

  • "*"表示匹配任何元素节点。
  • "@*"表示匹配任何属性值。
  • node()表示匹配任何类型的节点。

[例17]
//* :选择文档中的所有元素节点。

[例18]
/*/* :表示选择所有第二层的元素节点。

[例19]
/bookstore/* :表示选择bookstore的所有元素子节点。

[例20]
//title[@*]:表示选择所有带有属性的title元素。

六、选择多个路径

用"|"选择多个并列的路径。

[例21]
//book/title | //book/price :表示同时选择book元素的title子元素和price子元素。

【相关文章】

(完)

<think>好的,用户想学习如何编写XPath表达式来提取特定数据的实例。首先,我需要明确用户的需求是什么。他们可能刚开始接触XPath,需要基础但实用的例子来理解语法和结构。我需要从简单到复杂逐步引导,确保他们能跟上。 首先,我应该解释XPath的基本概念,比如节点选择、路径表达式和谓词的使用。然后,提供几个常见的例子,比如提取特定标签的内容、根据属性筛选元素,或者使用位置选择器。每个例子都需要对应的HTML或XML结构,这样用户能直观看到表达式如何匹配数据。 接下来,考虑用户可能会遇到的常见问题,比如处理默认命名空间或者需要提取多个条件下的元素。这时候,需要给出相应的解决方案,比如使用local-name()函数绕过命名空间问题,或者组合多个谓词来精确筛选。 用户可能不知道如何测试他们的XPath表达式,所以推荐一些工具,比如浏览器的开发者工具或在线测试网站,这样他们可以实践操作,加深理解。同时,提示注意事项,比如动态生成的内容可能需要不同的处理方式,或者性能优化的问题,避免过于复杂的表达式。 还要考虑用户的实际应用场景,比如网页抓取或数据处理,因此在示例中选择贴近实际的情况,比如提取电商网站的商品信息,这样用户更容易联想到自己的使用场景。 最后,生成相关问题,帮助用户进一步深入学习,比如如何处理复杂的嵌套结构或性能优化技巧。这些问题应该覆盖用户可能感兴趣的进阶话题,促使他们继续探索。 确保整个回答结构清晰,步骤明确,每个例子都有对应的代码块和解释,引用相关资源时添加标识符。同时,保持语言简洁,避免技术术语过多,让初学者也能理解。检查所有XPath语法是否正确,避免误导用户。这样用户就能按照指导逐步掌握XPath的基本用法,并应用到实际项目中。</think># 如何用XPath编写表达式提取数据示例 XPath是XML路径语言,常用于从HTML/XML文档中定位和提取数据。以下是逐步说明和具体示例: ## 一、基础语法结构 1. **节点选择**:`/`表示根节点,`//`表示所有层级 2. **属性匹配**:`@`符号用于属性选择 3. **谓词筛选**:`[]`内可设置过滤条件 ## 二、常用数据提取场景 ### 示例1:提取特定标签内容 给定HTML: ```html <div class="product"> <h3>智能手机</h3> <span class="price">¥2999</span> </div> ``` 提取价格表达式: ```xpath //div[@class='product']/span[@class='price']/text() ``` 返回结果:`¥2999`[^1] ### 示例2:多条件筛选 ```html <table> <tr> <td data-id="101">笔记本</td> <td>库存:15</td> </tr> <tr> <td data-id="102">显示器</td> <td>库存:0</td> </tr> </table> ``` 提取有库存的商品ID: ```xpath //tr[td[2][contains(text(),'库存:') and number(substring-after(text(),'库存:')) > 0]]/td[1]/@data-id ``` 返回结果:`101` ### 示例3:位置选择器 ```html <ul class="menu"> <li>首页</li> <li>产品</li> <li>关于我们</li> </ul> ``` 选择第二个菜单项: ```xpath (//ul[@class='menu']/li)[2]/text() ``` 返回结果:`产品` ## 三、特殊场景处理 ### 处理命名空间 当遇到`<ns:book>`格式时: ```xpath //*[local-name()='book']/title/text() ``` ### 提取多属性值 ```html <img src="image.jpg" alt="示例图片" data-src="hover-image.jpg"> ``` 获取所有图像备用地址: ```xpath //img/@data-src ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值