第三方库
lxml
。开发人员通过
lxml
库可以轻松地对
HTML
或
XML
文档中的目标节点进行定
位并提取。这里以
4.6.3
版本的
lxml
库为例进行介绍。
在 lxml
库中,大多数有关解析网页数据的功能都封装到
etree
模块中,
etree
模块包含了
两个比较重要的类,它们分别是
ElementTree
类和
Element
类,关于这两个类的相关内容的介
绍如下。
1.ElementTree 类
ElementTree 类的对象可以理解为一个
HTML
或
XML
文档的节点树。为方便开发者将
HTML
或
XML
文档转换为
ElementTree
类的对象,
etree
模块中提供了一个
parse()
函数。
parse()
函数的声明如下。
parse(source, parser=None, base_url=None)
上述函数中各参数的含义如下。