引言:
lxml是基于xpath语法的,也就是说如果你掌握了xpath语法,那么对于你学习其他工具解析文档都是很容易的事。比如前面我们介绍的Scrapy框架就是采用xpath语法进行文档解析。废话不多说,直入主题。
一.lxml安装步骤
1.安装python(这里就不具体阐述了,见我之前文章)
2.使用easy_install工具下载lxml模块(尤其在linux中)
注:python 3.x之后就集成了pip,easy_install 等工具可以用来直接下载python所需的模块。然后在这里我使用的是py 3.4.3,当使用pip下载lxml会出现各种依赖问题,所以为了避免这些问题我们直接使用easy_install工具下载。
二.xpath语法详解(耐心看完,不一定全部记住,便于以后随时查找)
xpath是一门在xml文档中查找信息的语言,可用于查找元素和属性。
1.选取节点
xpath使用路径表达式在xml文档中选取节点,节点是通过沿着路径或者step来选取的。
下面列出了最常用的路径表达式
| 表达式 | 描述 | 实例 | 解释 |
|---|---|---|---|
| / | 从根节点出发开始定位 | xpath(“/a”) | 选择根节点下的所有a |
| // | 从任意节点出发开始定位 | xpath(“//a”) | 选择所有的a节点 |
| . | 从当前节点出发开始定位 | <

本文介绍了Python的lxml模块,重点讲解了lxml的安装、xpath语法,并通过实战例子展示了如何使用lxml提取XML或HTML文档中的信息,强调理解和运用思路的重要性。
最低0.47元/天 解锁文章
9272

被折叠的 条评论
为什么被折叠?



