定义:1. xml路径语言,拥有在数据结构树中查找节点的能力
2. 被开发者当做小型查询语言使用
3. xpath通过元素和属性进行导航
支持html
比正则表达式简单
比正则表达式强大
scrapy
xpath使用路径表达式在xml文档中选取节点
路径表达式:/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点,而不考虑他们的位置
@ 选取属性
使用通配符:* 匹配任何元素节点
@*匹配任何属性节点
选取多个路径 | :/bookstore/book/title | /bookstore/book/author
xpath的使用:安装 lxml: pip install lxml
from lxml import etree
html = etree.parse('hello.html')
print(type(html))
# result=html.xpath('//div/ul|//div/ul/li')
# result=html.xpath('//li//a[@href="pla.html"]')
#result=html.xpath('//li//@href') #获取li下的所有href
#result=html.xpath('//li//@class') #获取li下的所有class
result=html.xpath('//*')
print(result)
print(len(result))
print(type(result))
# print(result[0].text)