[分章：代码知识]python xpath使用方法

最新推荐文章于 2025-04-17 15:03:52 发布

学者Miles

最新推荐文章于 2025-04-17 15:03:52 发布

阅读量1.4k

点赞数 49

分类专栏： # python 分章文章标签： python windows 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42645007/article/details/135547603

版权

python 分章专栏收录该内容

15 篇文章

订阅专栏

本文介绍了如何通过Python的lxml库解析HTML文档，利用XPath表达式定位标签并提取数据。重点讲解了XPath语法，包括多层级查找、属性定位、索引和标签文本提取示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

extree xpath解析HTML库

作用：通过xpath解析html数据；需要安装pip install lxml

注意：完整xpath路径可以在网页鼠标右键检查目标文本，而后右键复制xpth路径

示例：

from lxml import etree

with open('123.html',mode='r',encoding='utf-8') as f:

str1 = f.read()

tree = etree.HTML(str1) # 导入本地HTML文档

str = tree.xpath('//div[@class="index-left"]') # 使用xpath表达式定位标签，返回为对象;'//'表示多个层级，可以从任意层级开始查找；'@class=""'为属性定位

tree.HTML() 实例化HTML文本

用于将HTML文本实例化成extree对象，方便进行xpath数据分析。

tree.xpath 标签定位

用于标签定位；

使用xpath表达式定位标签，返回为对象;

注意：完整xpath路径可以在网页鼠标右键检查目标文本，而后右键复制xpth路径

xpth语法：

'//'表示多个层级，可以从任意层级开始查找；

//*[@id="header"]为从id=header标签开始查找

[@id="header]为属性定位，进一步定位指定标签;

/a[1]为xpath内的索引，xpath的索引是从1开始的；括号外的[1]索引为list索引，和xpath无关；

@src为查找所有属性为src的标签

//text()读取标签文本

示例：

from lxml import etree

with open('123.html',mode='r',encoding='utf-8') as f:

str1 = f.read()

tree = etree.HTML(str1) # 导入本地HTML文档

# str = tree.xpath('//div[@class="index-left"]')[1] # 使用xpath表达式定位标签，返回为对象;'//'表示多个层级，可以从任意层级开始查找；'@class=""'为属性定位

# str = tree.xpath('//div[@class="high-quality-list"]//img/@src')[1] # @src为查找所有属性为src的标签

str = tree.xpath('//*[@id="header"]/div[2]/div/p/a[1]//text()')[0] #

博客等级

码龄7年

36
原创

498
点赞

434
收藏

388
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: [分章：代码知识]python爬虫 xpath解析数据

下一篇：: [分章：代码知识]python串口通讯

最新评论

[分章：技术知识]Halcon单相机标定和畸变矫正程序
学者Miles: 重发还是失败了，不知道为啥子。
[分章：技术知识]Halcon单相机标定和畸变矫正程序
Frown 蹙眉: 你倒是重新发图片啊
[杂项：阅读]《生命的品质》
优快云-Ada助手: 恭喜你撰写了第19篇博客，标题为“[杂项：阅读]《生命的品质》”！你对于阅读的热爱和对生命品质的探索令人钦佩。在接下来的创作中，或许可以考虑更深入地探讨书中的主题，结合自己的生活经历和感悟，分享更多独特的见解。期待你的下一篇作品！
[杂项：书籍]阅读规划
优快云-Ada助手: “恭喜您发布了第18篇博客！阅读规划是一个非常有用的话题，我很喜欢您对书籍阅读的思考和规划。希望您能继续坚持创作，不断分享您的阅读心得和体会。或许下一步可以尝试写一些具体的书籍推荐或者阅读方法，让读者更加受益。但这只是一个建议，期待您未来更多精彩的作品！”
[分章：阅读]《我的第一本算法书》
优快云-Ada助手: 恭喜您撰写了第16篇博客！题为《我的第一本算法书》的这篇博文引人入胜。您对阅读的分章技巧的分享让我受益匪浅。我要衷心夸赞您的连续创作精神，这对于一个博主来说确实是一项了不起的成就。接下来，我想谦虚地提出一些建议，希望能对您的下一步创作有所帮助。考虑到您的博文题为《我的第一本算法书》，或许您可以进一步扩展内容，分享一些关于如何选择适合初学者的算法书籍的经验和建议。这样的话，读者能够更好地了解如何从众多的算法书中找到最适合自己的那一本。期待您未来更多的精彩博文！感谢您的分享和付出，您的努力将会激励许多人坚持追求知识。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。