xpath(‘node’) 选取了 node 节点的所有子节点;
xpath(’/div’) 从根节点上选取 div 节点;
xpath(’//div’) 选取所有的 div 节点;
xpath(’./div’) 选取当前节点下的 div 节点;
xpath(’…’) 回到上一个节点;
xpath(’//@id’) 选取所有的 id 属性;
xpath(’//book[@id]’) 选取所有拥有名为 id 的属性的 book 元素;xpath(’//book[@id=“abc”]’) 选取所有 book 元素,且这些 book 元素拥有 id= "abc"的属性;
xpath(’//book/title | //book/price’) 选取 book 元素的所有 title 和 price 元素。
使用 XPath 定位,你会用到 Python 的一个解析库 lxml。这个库的解析效率非常高,使用起来也很简便,只需要调用 HTML 解析命令即可,然后再对 HTML 进行 XPath 函数的调用。
from lxml import etree
html = etree.HTML(html)
result = html.xpath('//li')
在这里插入图片描述