lxml简明教程

部署运行你感兴趣的模型镜像

最近要做下微信爬虫,之前写个小东西都是直接用正则提取数据就算了,如果需要更稳定的提取数据,还是使用 xpath 定位元素比较可靠。周末没事,从爬虫的角度研究了一下 python xml 相关的库。

Python 标准库中自带了 xml 模块,但是性能不够好,而且缺乏一些人性化的 API,相比之下,第三方库 lxml 是用 Cython 实现的,而且增加了很多实用的功能,可谓爬虫处理网页数据的一件利器。lxml 大部分功能都存在 lxml.etree中,所以下文都假定已经执行了

from lxml import etree

解析 XML 字符串

网页下载下来以后是个字符串的形式,使用etree.fromstring(str)构造一个 etree._ElementTree对象,使用 etree.tostring(t)返回一个字符串

>>> xml_string = '<root><foo id="foo-id" class="foo zoo">Foo</foo><bar>中文</bar><baz></baz></root>'
>>> root = etree.fromstring(xml_string.encode('utf-8')) # 最好传 byte string

>>> etree.tostring(root)
# 默认返回的是 byte string
b'<root>root content<foo id="foo-id" class="foo zoo">Foo</foo><bar>Bar</bar><baz/></root>'

>>> print(etree.tostring(root, pretty_print=True).decode('utf-8'))
#decode 一下变成 unicode
<root>
  <foo id="foo-id" class="foo zoo">Foo</foo>
  <bar>Bar</bar>
  <baz/> # 注意这里没有子节点的 baz 节点被变成了自闭和的标签
</root>

>>> type(root)
<class 'lxml.etree._Element'>

# 可以看出 tostring 返回的是一个_Element类型的对象,也就是整个 xml 树的根节点

Element结构

etree._Element 是一个设计很精妙的结构,可以把他当做一个对象访问当前节点自身的文本节点,可以把他当做一个数组,元素就是他的子节点,可以把它当做一个字典,从而遍历他的属性

>>> root.text
'root content' # 注意只是 root 自身的文本,并不包含子节点的文本
>>> root.tag
'root'
>>> root[0].tag
'foo'
>>> foo = root[0]
>>> for attr, val in foo.items():
...     print(attr, val)
...
id foo-id
class foo zoo
>>> foo.get('id')
'foo-id'
>>> foo.attrib
{'class': 'foo zoo', 'id': 'foo-id'}

Element 和 ElementTree

xml 是一个树形结构,lxml 使用etree._Element和 etree._ElementTree来分别代表树中的节点和树,etree.ELement和 etree.ElementTree 分别是两个工厂函数

>>> t = root.getroottree()
# 获得一个节点对应的树
<lxml.etree._ElementTree object at 0x107295308>

>>> t.getroot() == root
# 使用getroot 返回一个树的根节点
True

>>> foo_tree = etree.ElementTree(root)
# 也可以从一个节点构造一个树,那么这个节点就是这棵树的根
>>> foo_tree.getroot().tag
'foo'

>>> foo.getroottree().tag
'root'
#注意,foo 这个节点的 roottree 仍然是以 root 节点为根的

其他方法如getparent()/getprevious()/getnext()都是显而易见的,不赘述了

XPath

XPath 实在太强大了,在定位元素方面绝对是秒杀 CSS 选择器。在 lxml 中,_Element和 _ElementTree 分别具有xpath 函数,两者的区别在于:

如果是相对路径,_Element.xpath是以当前节点为参考的,_ElementTree.xpath以根为参考
如果是绝对路径,_ElementTree.xpath是以当前节点的getroottree的根节点为参考的

还有,如果 xpaht 表达式应该返回元素的话,总是返回一个数组,即使只有一个元素

>>> foo.xpath('/root')[0].tag
'root'
>>> foo.xpath('.')[0].tag
'foo'
>>>
>>> t.xpath('/root')[0].tag
'root'
>>> t.xpath('.')[0].tag
'root'
>>>

lxml 还支持几个函数 find/findall,他们使用 ElementPath,是一种类似 xpath 的语言,感觉很是奇怪,lxml 的文档描述他是 xpath 的一个子集,暂时不看了。

HTML

最后再来讨论一下 HTML,以上的讨论都是基于 xml 的,HTML 和 xml 还是有些许不同的,lxml 也有一个专门的 html 模块。
比如我们解析 html 的话最好使用html.fromstring(),返回的是lxml.html.HtmlElement,具有上述的所有能力,同时能够更好地兼容 html。

>>> etree.fromstring('<meta charset=utf-8 />')
# 比如这句就会报错,因为属性值没有用引号括起来
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "src/lxml/lxml.etree.pyx", line 3213, in lxml.etree.fromstring (src/lxml/lxml.etree.c:77737)
  File "src/lxml/parser.pxi", line 1830, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:116674)
  File "src/lxml/parser.pxi", line 1711, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:115220)
  File "src/lxml/parser.pxi", line 1051, in lxml.etree._BaseParser._parseUnicodeDoc (src/lxml/lxml.etree.c:109345)
  File "src/lxml/parser.pxi", line 584, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:103584)
  File "src/lxml/parser.pxi", line 694, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:105238)
  File "src/lxml/parser.pxi", line 624, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:104147)
lxml.etree.XMLSyntaxError: AttValue: " or ' expected, line 1, column 15

>>> html.fromstring('<meta charset=utf-8>')
# 没有问题

html.HtmlElement同时多了几项功能

>>> doc = html.fromstring('<div><p>lorem <span>poium</span></p></div>')

>>> doc.text_content()

'lorem poium' ### 文章原地址:https://www.cnblogs.com/ospider/p/5911339.html

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### lxml 使用教程及开发指南 lxml 是一个在 Python 中广泛使用的库,主要用于高效的 XML 和 HTML 处理。它提供了强大的功能来解析、修改和生成 XML/HTML 文档,并支持 XPath 查询语言以提取所需的数据[^2]。 以下是一个完整的 lxml 使用教程,涵盖安装、基础用法、高级功能以及与其他工具的对比: #### 1. 安装 lxml 在使用 lxml 之前,需要确保已正确安装该库。可以通过 pip 工具进行安装: ```bash pip install lxml ``` 如果遇到 `etree` 模块缺失的问题,可以尝试以下方法解决: - 确保安装完整版本的 lxml。 - 检查是否存在版本冲突或虚拟环境配置问题。 - 在 Windows 平台上,推荐使用预编译的 wheel 文件。 - 对于特定需求,还可以从源码编译安装[^2]。 #### 2. 基础用法 lxml 的核心模块是 `etree`,用于处理 XML 和 HTML 数据。以下是几个常见的用例: ##### 2.1 解析 XML/HTML 文档 可以从字符串或文件中解析 XML/HTML 内容: ```python from lxml import etree # 从字符串解析 xml_string = "<root><child>Content</child></root>" root = etree.fromstring(xml_string) # 从文件解析 with open("example.xml", "r") as file: tree = etree.parse(file) ``` ##### 2.2 使用 XPath 提取数据 XPath 是一种强大的查询语言,用于从 XML/HTML 文档中提取特定节点或属性。以下是一个示例: ```python html_content = """ <html> <body> <h1 class="title">Hello World</h1> <p>This is a paragraph.</p> </body> </html> """ # 解析 HTML 内容 html_tree = etree.HTML(html_content) # 提取标题文本 title = html_tree.xpath("//h1[@class='title']/text()")[0] print(f"Title: {title}") # 输出:Title: Hello World ``` ##### 2.3 修改和生成 XML/HTML lxml 支持对文档进行修改并生成新的 XML/HTML 文件: ```python # 创建一个新的元素 new_element = etree.Element("new-tag") new_element.text = "New Content" # 将新元素添加到根节点 root.append(new_element) # 生成 XML 字符串 xml_output = etree.tostring(root, pretty_print=True, encoding="unicode") print(xml_output) ``` #### 3. 高级功能 lxml 提供了丰富的高级功能,例如扩展模块、对象化接口等: ##### 3.1 lxml.objectify 模块 `lxml.objectify` 提供了一种更直观的方式来处理 XML 数据,适用于较小的数据集或对 XML 依赖不强的应用场景[^1]。 ##### 3.2 处理不良格式的 HTML 对于不具备良好格式的 HTML 内容,可以使用 `lxml.html` 模块或结合 BeautifulSoup 解析器进行修复和处理[^1]。 ##### 3.3 扩展 lxml 如果需要编写能够从 XSLT 调用的 Python 模块,或创建定制的 Python 或 C 扩展,可以参考 lxml 的官方文档进行扩展开发[^1]。 #### 4. 实战案例 以下是一个使用 lxml 和 XPath 提取网页数据的完整示例[^4]: ```python import requests from lxml import etree # 发送 HTTP 请求获取网页内容 url = "https://example.com/news" response = requests.get(url) html_content = response.text # 解析 HTML 内容 html_tree = etree.HTML(html_content) # 使用 XPath 提取新闻标题和链接 titles = html_tree.xpath("//h2[@class='news-title']/a/text()") links = html_tree.xpath("//h2[@class='news-title']/a/@href") # 打印提取结果 for title, link in zip(titles, links): print(f"Title: {title}\nLink: {link}\n") ``` #### 5. lxml 与 BeautifulSoup 的对比 lxml 和 BeautifulSoup 都是常用的网络数据抓取工具,但各有优缺点。lxml 更适合处理大规模 XML/HTML 数据,而 BeautifulSoup 则对不良格式的 HTML 更友好。具体选择取决于应用场景[^3]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值