python-爬虫基础-lxml.etree(2)

25 篇文章 ¥9.90 ¥99.00
本文介绍了Python爬虫中lxml库的etree模块,包括元素的文本获取、XPath查找文本、树的迭代以及序列化方法。通过XPath可以方便地提取树中的文本内容,而迭代器则能按顺序遍历元素。此外,tostring()和ElementTree.write()用于序列化输出,支持格式化和选择不同的编码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(5)元素包含文本

文本包含元素中间文本和末尾文本,例如,<body></body>中间的文本为中间文本,<br/>之后的文本为元素末尾文本。

root = etree.Element("root")
root.text = "TEXT"
print(root.text)
print(etree.tostring(root))
#加html节点
html = etree.Element("html")
#加body节点
body = etree.SubElement(html,"body")
#body标签内加入文本
body.text = "TEXT"
#打印html以及之下的节点
print(etree.tostring(html))
#加入br节点
br = etree.SubElement(body,"br")
print(etree.tostring(html))
#元素通过它们的 tail 属性在末尾加text
br.tail = "TALL"
print(etree.tostring(html))
'''
在某些情况下,尾部文本也会成为障碍。 
例如,当您从树中序列化一个 Element 时,
您并不总是希望其尾部文本出现在结果中
(尽管您仍然希望其子元素的尾部文本)。 
为此,t
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值