xpath小技巧

最新推荐文章于 2025-07-05 10:08:51 发布

原创最新推荐文章于 2025-07-05 10:08:51 发布 · 368 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#xpath #爬虫 #python

python 专栏收录该内容

18 篇文章

订阅专栏

1、选择当前节点下部分节点

如：

获取http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/11/01/01/110101001.html的“统计用区划代码”和“城乡分类代码”两列内容

xpath = '//tr[@class="villagetr"]/td/preceding-sibling::*[1]/text()'

获取http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/11/01/01/110101001.html的“城乡分类代码”和“名称”两列内容

xpath = '//tr[@class="villagetr"]/td/following-sibling::*[1]/text()'

参考网址：

https://www.jianshu.com/p/820dcd013993

https://blog.youkuaiyun.com/lengchun10/article/details/41044119

http://www.itkeyword.com/doc/3425694516199323x896/using-xpath-selector-following-siblingtext-in-selenium-python

2、选取当前节点不包含值为**的节点

如：

获取http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/11/01/01/110101001.html的三列内容中不为“111”的内容

xpath = '//tr[@class="villagetr"]/td[text()!="111"]/text()'

3、选取当前节点包含值为**的节点

如：

①获取http://www.xzqh.org/old/waiguo/asia/index.htm的所有国家列表

xpath = '//div[@align="center"]//div[@align="center"]//tr/td/a[contains(@target,"_blank")]/text()'

②获取https://www.fmprc.gov.cn/web/gjhdq_676201/gj_676203/dyz_681240/1206_681890/1206x0_681892/包含“行政区划”的节点的节点文本

xpath = '//div[@class="wjbox_content"]/p[contains(text(),"行政区划")]/text()'

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaoxy97

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

XPath 使用括号改变优先级

小蓝枣的博客

07-13

408

XPath 是一种强大的查询语言，用于在 XML 和 HTML 文档中定位和提取元素。在实际的应用中，我们常常需要根据多个条件进行元素的筛选和定位。 XPath 提供了逻辑运算符来组合条件，但有时我们需要改变条件之间的优先级。 XPath 括号运算符提供了一种灵活的方式，可以改变条件的优先级，从而精确地控制元素的筛选和定位。本篇博客将深入探讨 XPath 括号运算符的使用方法和技巧，通过详细的解释和实例演示，展示它在条件优先级改变方面的优势和灵活性。

XPath 使用数值函数进行数值比较

小蓝枣的博客

07-13

566

XPath 是一种强大的查询语言，用于在 XML 和 HTML 文档中定位和提取元素。除了基本的标签、属性和文本匹配外， XPath 还提供了丰富的数值函数，用于进行数值比较和筛选。这些数值函数可以帮助我们在数据处理和分析中灵活地进行数值比较，并精确地定位目标元素。本篇博客将深入探讨 XPath 数值函数的使用方法和技巧，通过详细的解释和实例演示，展示它在元素筛选和定位方面的优势和灵活性。

参与评论您还未登录，请先登录后发表或查看评论

xpath技巧

YOYO的博客

09-15

322

python的xpath没有获取div标签内html内容的功能，也就是获取div或a标签中的innerhtml，写了个小程序实现一下： #去掉最外层标签，保留其内的所有html标记和文本 def getinnerhtml(data): return data[data.find("&gt;")+1:data.rfind("&lt;/")] str1="&l

自动化测试工程师的xpath实用技巧总结

11-02

xpath实用技巧总结多个相同的标签如何定位，包含空格如何定位。

XPath攻略：从入门到精通，告别查找困难！

Ceshiren666的博客

03-28

935

XPath定位是一种非常便捷的方法，不仅可以通过常规的id、class等属性进行元素定位，还可以通过父子关系和后代关系来实现更灵活的定位。这使得XPath在元素选择和定位方面具有独特的优势。

【爬虫】Xpath高级用法

xueba8的博客

08-19

1529

xpath速度比较快，是爬虫在网页定位中的较优选择，但是很多网页前端代码混乱难以定位，而学习定位也较为不易（主要是全面的教程较少），这里列出一点编程过程中可能有用的东西，欢迎共同学习批评指正。试验环境：Python环境，lxml.etree 试验所使用的html代码 <!DOCTYPE html> <html> <head> <title&g...

XPATH使用技巧

zhouyong19871123的专栏

03-02

432

好用的XML工具是XMLSPY 非常好用，不过要收费不过很多浏览器现在也支持XPATH了，比如谷歌浏览器还有火狐浏览器插件 XPATH 能用来解析xml 也能用于HTML开发现在更多的可能是用来爬取数据了吧废话不多说了，直接上技巧先上函数图技巧1：取精确值 text() 函数获取例如如下xml代码块 XPATH: //SOO/PROD_INST/ACC_PROD_INST_ID[text()='123566884893'] 获取到NODE <SOO type="D

Xpath Helper插件的安装以及使用小技巧

天行健君子以自强不息，地势坤君子以厚德载物。

02-28

3958

Xpath Helper插件的安装以及使用小技巧

XPath 安装使用教程

最新发布

真正的大师永远怀着一颗学徒的心

07-05

1198

本文介绍了XPath（XML Path Language）的基本概念与应用。XPath是一种用于在XML文档中查找信息的语言，广泛应用于XML数据提取、HTML解析、数据转换等场景。文章详细讲解了XPath的基本语法、常见开发环境支持（包括Java、Python、JavaScript等），并提供了VSCode安装XPath工具的步骤。通过示例XML文档展示了XPath查询方法，并给出了Python和Java的代码示例。此外还介绍了浏览器调试技巧和常见问题解决方案，最后推荐了W3School、MDN等学习资源

XPath Helper插件功能详解与使用技巧

XPath Helper是一款专门为Google Chrome浏览器设计的插件，它大大简化了网页元素的XPath抓取过程，提高了网页数据抓取的效率。通过该插件，用户可以直观地在浏览器中操作，点击网页上的任意元素来获取其对应的XPath...

XPath 使用路径表达式来选取 XML 文档中的节点或节点集

guoyang9108的专栏

12-01

1293

下面列出了最有用的路径表达式：表达式描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ 选取属性。例子： bookstore

Xpath的几个妙招

weixin_44500833的博客

06-11

455

Xpath 实用方法 1、xpath提取”或‘多个超实用的方法！ from lxml import etree text=''' <html> <body> <p>He said: "I don't "know" why, but I like mixing single and double quotes!"</p> </body&...

Xpath 常用函数技巧

从零开始学习python --zeropython

07-05

290

python 提取速度对比安装lxml Python pip install <span class="wp_keywordlink_affiliate"><a href="https://www.168seo.cn/tag/lxml&...

定位元素Xpath技巧

weixin_39386145的博客

02-26

581

Xpath中的绝对路径与相对路径注意：如果元素的ID不唯一或者是动态的或者name以及linktext属性值也不唯一我们就需要考虑用xpath来查找元素了，然后再对元素执行操作语法： xpath=//tag[@attibute='value'] 绝对路径： (web自动化的时候是不支持用绝对路径写的) Xpath的绝对路径使用单斜线"/"定位慕课网购物车这个元素 /html/body/div[...

Xpath定位9大技巧

测试开发之路BeeTester

02-13

1420

Xpath定位9大技巧 1 标签类型选择器根据其标签类型来选择元素，//A是选择A类型标签所包含的所有元素，比如：//div是选择全部元素。 2 标签属性选择器选择带有属性的元素，//[@属性=”属性值”]选择相关属性的元素，比如：//[class=”classvalue”]选择的是所有包含class属性值为classvalue的元素。 3 子选择器选择某元素的直系子元素，//A/B是选择所...

XPath从入门到精通：基础和高级用法完整指南，附美团APP匹配示例

程序员李林

02-01

1760

父节点 (Parent)： HTML 是 DIV 和 P 节点的父节点；子节点 (Child)：DIV 和 P 是 HTML 的子节点；兄弟节点 (Sibling)：拥有同样的一个父节点，DIV 和 P 就是兄弟节点。类似的 span、img 和 i 也是兄弟节点。祖先节点 (Ancestor)：html 是 span 的祖先节点，隔开一级；后代节点 (Descendant)：span 是 HTML 的后代节点，隔开一级。

【selenium】拼接xpath点击伪元素思路

星火飞花

03-07

1037

使用selenium遇到伪元素通过拼接xpath提取数据的思路。

伪元素选择器

追上昨天的自己

07-23

2498

伪元素选择器伪元素不是真正的页面元素，html中没有对应的元素伪元素在html中无法审查，但是伪元素的用法和真正的页面元素一样，可以用来对css设置样式。区分伪类选择器和伪元素选择器 :hover 关键字 “:” 代表伪类选择器，伪类选择器本质是用来选择对象的 :: 关键字“::”伪类选择器本质上是插入了一个元素或者说插入了一个盒子，伪元素选择器默认插入的是Inline（行内元素） <!...

Xpath学习总结(一)

DefectFinder的博客

12-19

2009

使用WebDriver做Web自动化时要使用Xpath定位页面元素，大概总结了下Xpath相关知识，以备后续学习和使用。一、基本知识 . 选择当前节点 .. 选取当前节点的父节点 @ 选择属性以//开头：相对路径，表示Xpath引擎从文档中任意符合的元素节点开始进行解析以/开头：绝对路径，表示Xpath引擎从文档的根节点开始解析，一般不推荐使用绝对路径，因为页面结