XPath全称(XML path Language),即XML路径语言,用来在XML文档中查找信息
1.XPath常用规则
表达式 | 描述 |
nodename | 选取此节点的所有子节点 |
/ | 从当前节点选取直接子节点 |
// | 从当前节点选取子孙节点 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
比如://title[@lang='eng']
代表所有名称为titlt,同时属性为lang的值为eng的节点
2.实例
from lxml import etree
text ="""
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="ite