第一章 XPath 解析
在 Python 中可以支持 XPath 提取数据的解析模块有很多,本文主要介绍 lxml 模块,该模块可以解析 HTML 与 XML,并且支持 XPath 解析方式。由于 lxml 模块 为第三方模块,需要通过 pip install lxml
命令安装该模块。lxml 模块 的底层是通过C语言编写的,所以在解析效率方面是非常优秀的。xpath 语法参考学习网站:https://www.w3school.com.cn/xpath/xpath_nodes.asp。
【示例1】使用 parse() 方法解析本地的 HTML 文件。(一般不怎么常用)
笔者在自己本地新建了一个 demo.html
,内容如下:
<!DOCTYPE