lxml.etree 教程4：Elements contain text

最新推荐文章于 2023-11-17 08:28:43 发布

转载最新推荐文章于 2023-11-17 08:28:43 发布 · 142 阅读

本文探讨了XML文档中文本的表示方式，包括文本作为唯一节点的情况和文本嵌入到不同元素内部的情况。同时，解释了如何使用.text和.tail属性来操作XML文档中的文本，并展示了如何通过tostring()函数来获取正确的文本顺序。

元素可以包含文本:

>>> root = etree.Element("root")
>>> root.text = "TEXT"

>>> print(root.text)
TEXT

>>> etree.tostring(root)
b'<root>TEXT</root>'

在很多XML文档(数据中心文档)中，这是可以找到文本的唯一地方。它在树结构的底部，用一个叶标签来封装。
然而，如果XML是用来标记文本，比如(X)HTML，文本也可以出现在不同的元素中。在树结构的中间：

<html><body>Hello<br/>World</body></html>

这里，<br/>标签被文本包围。元素通过tail属性来支持。它包含这个元素直接跟随的文本，在下一个直接相连的元素之前。

>>> html = etree.Element("html")
>>> body = etree.SubElement(html, "body")
>>> body.text = "TEXT"

>>> etree.tostring(html)
b'<html><body>TEXT</body></html>'

>>> br = etree.SubElement(body, "br")
>>> etree.tostring(html)
b'<html><body>TEXT<br/></body></html>'

>>> br.tail = "TAIL"
>>> etree.tostring(html)
b'<html><body>TEXT<br/>TAIL</body></html>'

.text和.tail属性足够用来代表一个XML文档中的任意文本。

>>> etree.tostring(br)
b'<br/>TAIL'
>>> etree.tostring(br, with_tail=False) # lxml.etree only!
b'<br/>'

If you want to read only the text, i.e. without any intermediate tags, you have to recursively concatenate all text and tail attributes in the correct order. Again, the tostring() function comes to the rescue, this time using the method keyword:

>>> etree.tostring(html, method="text")
b'TEXTTAIL'

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33692284

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python爬虫基础——XPath语法的学习与lxml模块的使用【优快云】

WoLykos

12-26

1247

XPath与正则都是用于数据的提取，二者的区别是：正则：功能相对强大，写起来相对复杂； XPath：语法简单，可以满足绝大部分的需求；所以，如果你可以根据自己的需要进行选择。一、首先，我们需要为Google浏览器配置XPath插件：请自行学习，效果如下：二、XPath的语法：注意： XPath的索引从1开始。三、XPath的案例：一级分类： //h3[@class="c...

lxml解析 python_使用lxml在Python中进行高性能XML解析

cuxiong8996的博客

07-05

1320

常用缩略语 API：应用程序编程接口 DOM：文档对象模型 HTML：超文本标记语言 SAX：用于XML的简单API XML：可扩展标记语言 XPath：XML路径语言 XSLT：可扩展样式表语言转换介绍lxml Python从未遭受过XML库不足的困扰。从2.0版开始，它包含了熟悉的xml.dom.minidom以及相关的pulldom和XML...

参与评论您还未登录，请先登录后发表或查看评论

lxml读取xml_爬虫解析库——XPath语法和lxml库

weixin_29831325的博客

01-26

355

XPathXPath(XML Path Language)是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。XPath开发工具：Chrome插件XPath Helper、Firefox插件Try XPathXPath节点：元素、属性、文本、命名空间、处理指令、注释、文档(根)节点。XML文档是被作为节点树来对待的，树的根被称为文档节点或者根节点。XP...

十一、数据提取方法之xpath

weixin_42633359的博客

12-09

527

1. 为什么要学习xpath和lxml lxml是一款高性能的Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息。 2. 什么是xpath XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。 W3School官方文档：http://w...

XPath与lxml_4功能函数

少点套路，多点诚意

06-09

665

实用功能函数，更好的进行模糊搜索。 1 starts-with函数用法：xpath('//div[stars-with(@id,"test")]') 解释：选取id值以test为开头的div节点 2 contains函数用法：xpath('//div[contains(@id,"test")]') 解释：选取id值包含test的div节点 3 and 用

执行pyshark报错的解决方法 lxml.etree.XMLSyntaxError: Input is not proper UTF-8, indicate encoding !

weixin_42612178的博客

06-11

1641

python代码 import pyshark cap = pyshark.FileCapture(r'E:\test.pcap') def print_conversation_header(pkt): try: protocol = pkt.transport_layer src_addr = pkt.ip.src src_port = pkt[pkt.transport_layer].srcport dst_addr =

【python】报错lxml.etree.XPathEvalError: Invalid expression

dxtql的博客

10-18

9477

报错信息： Traceback (most recent call last): File “c:\Users\86130\Desktop\Study\python\spider_learning\hello_spider.py”, line 6, in text = ht.xpath(xpath) File “src\lxml\etree.pyx”, line 1583, in lxml.et...

【小白必胜-xpath】lxml.etree.HTML()，lxml.etree.fromstring()和lxml.etree.tostring()三者的区别与联系

沧海济洲云的博客

11-23

3791

对于使用xpath()之前的文档格式化问题，可能不同的人，会遇到不一样的情况，但是基本上只要搞懂了lxml.etree.HTML()，lxml.etree.fromstring()和lxml.etree.tostring()这三者之间的区别和联系，那么文档格式化这一步一定不会有问题……

爬去网页时出现raise etree.ParserError(lxml.etree.ParserError: Document is empty问题，想知道哪里出现了错误源代码如下

SWDYSQBL的博客

11-17

465

抱歉，想知道哪里出现了报错原因

【lxml.etree进阶教程】：构建复杂XML处理流程

[【lxml.etree进阶教程】：构建复杂XML处理流程](https://opengraph.githubassets.com/6a778608a972b55748002ec7bc1745400fd8a79183af149520119bee7b0799a0/s3tools/s3cmd/issues/1182) # 1. lxml.etree基础介绍 ...

python爬虫：获取标签内部全部文本

李汶峰的博客

09-06

2万+

取出以下字符串：亲测链接我要取出text内容，怎么取呢，很多方法，bs4也可以，正则也可以，动态selenium也可以，这次我们先实现xpath，xpath的确很强大，不多说，上程序。通过text获取文本 import reqiests from lxml import etree url = 'https://tieba.baidu.com/p/5815118868?pn=&am...

lxml库之etree使用小结

caicaibird0531的博客

05-30

2万+

一、etree的Element类 1.通过etree.Element()创建XML树 from lxml import etree root = etree.Element("root") print(root.tag) # 添加子元素 root.append(etree.Element("child1")) child2 = etree.SubElement(root,"child2") ch...

python爬虫中 lxml etree的相关使用

这个面它又长又宽

04-11

3158

import requests from lxml import etree url = 'https://dblp.org/pers/hd/p/Petersen:Karin' html = requests.get(url) html = etree.HTML(html.text) #初始化生成一个XPath解析对象 items = html.xpath('//div[contains(@c...

lxml.etree API的一些细节说明

like_LeafFlying的博客

05-06

3045

lxml.etree API的一些细节说明lxml.etree努力尽可能地与已建立的API保持一致。然而，有时为了用一种简单的方式暴漏某个特性，导致一个新的API产生。这个页面描述了主要的差异，以及一些相较于ElementTree API新增的部分。如果需要完整的API参考，请参见“generated API documentation”。lxml是极度可扩展的，主要体现在XPath functio

Python 标准库之 xml.etree.ElementTree

weixin_34242658的博客

04-12

1455

简介 Element类型是一种灵活的容器对象，用于在内存中存储结构化数据。［注意］xml.etree.ElementTree模块在应对恶意结构数据时显得并不安全。每个element对象都具有以下属性：　　1. tag：string对象，表示数据代表的种类。　　2. attrib：dictionary对象，表示附有的属性。　　3. text：string对象，表示elem...

xpath定位中starts-with、contains和text()的用法