python-爬虫基础-lxml.etree(2)

最新推荐文章于 2024-04-04 11:02:28 发布

置顶 Aldeo

最新推荐文章于 2024-04-04 11:02:28 发布

阅读量2.6k

点赞数

分类专栏： Python 文章标签： python lxml.etree

本文链接：https://blog.youkuaiyun.com/zhangzijiejiayou/article/details/100157357

版权

Python 专栏收录该内容

25 篇文章 ¥9.90 ¥99.00

订阅专栏

本文介绍了Python爬虫中lxml库的etree模块，包括元素的文本获取、XPath查找文本、树的迭代以及序列化方法。通过XPath可以方便地提取树中的文本内容，而迭代器则能按顺序遍历元素。此外，tostring()和ElementTree.write()用于序列化输出，支持格式化和选择不同的编码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（5）元素包含文本

文本包含元素中间文本和末尾文本，例如，<body></body>中间的文本为中间文本，<br/>之后的文本为元素末尾文本。

root = etree.Element("root")
root.text = "TEXT"
print(root.text)
print(etree.tostring(root))
#加html节点
html = etree.Element("html")
#加body节点
body = etree.SubElement(html,"body")
#body标签内加入文本
body.text = "TEXT"
#打印html以及之下的节点
print(etree.tostring(html))
#加入br节点
br = etree.SubElement(body,"br")
print(etree.tostring(html))
#元素通过它们的 tail 属性在末尾加text
br.tail = "TALL"
print(etree.tostring(html))
'''
在某些情况下，尾部文本也会成为障碍。 
例如，当您从树中序列化一个 Element 时，
您并不总是希望其尾部文本出现在结果中
(尽管您仍然希望其子元素的尾部文本)。 
为此，t

了解本专栏