这是一个关于使用lxml.etree进行XML处理的教程。它简要概述了ElementTree API的主要概念,以及一些简单的增强功能,使您作为程序员的生活更轻松。
有关API的完整参考,请参阅生成的API文档。
内容
本文章主要介绍的是使用XPath查找文本和树迭代
使用XPath查找文本
提取树的文本内容的另一种方法是XPath,它还允许您将单独的文本块提取到列表中:
打印(HTML 。XPath的(“字符串()” )) 仅#lxml.etree!
TEXTTAIL打印(HTML 。XPath的(“//文本()” )) 仅#lxml.etree!
[‘TEXT’,‘TAIL’]
如果你想更频繁地使用它,你可以将它包装在一个函数中:
build_text_list = etree 。XPath (“// text()” ) #lxml.etree!
print (build_text_list (html ))
[‘TEXT’,‘TAIL’]
请注意,XPath返回的字符串结果是一个特殊的“智能”对象,它知道它的来源。您可以通过其getparent()方法询问它的来源,就像使用Elements一样:
texts = build_text_list (html )
print (texts [ 0 ])
TEXT

本文介绍了如何使用Python的lxml库中的XPath表达式来查找XML文档中的文本,并展示了如何进行树迭代,遍历XML树结构。通过示例,解释了XPath的`string()`和`text()`函数,以及如何过滤元素进行迭代。
最低0.47元/天 解锁文章
1479

被折叠的 条评论
为什么被折叠?



