python - xpath使用

xpath使用

import lxml.html
from lxml import etree

html_str = "<xx></xx>"

# 把html_str转换为html对象
html_s = lxml.html.fromstring(html_str)

# 提取标签内容
h1 = html_s.xpath('/xx/text()')

# etree用法
html_download = requests.get("http://www.itmeng.top").content.decode()

# 转换为html对象
html_d = etree.HTML(html_download)
h2 = html_d.xpath('/xx/xx/text()')


# 常用语法
# 1. 选择同时包含xx属性为xxx的,并且yy属性为yyy的div标签
html_data = html.xpath('//div[@xx="xxx" and @yy="yyy"]')

# 2. 选择最后一个div标签
html_data = html.xpath('//div[last()]')

# 3. 选择xx属性大于99的div标签
html_data = html.xpath('//div[xx > 99]')

# 4. 选择xx属性中以xxx开头的div标签
html_data = html.xpath('//div[starts-with(@xx, xxx)]')

# 5. 选择xx属性中包含xxx的div标签
html_data = html.xpath('//div[contains(@xx, 'xxx')]')

常用的路径表达式

  • / 从根节点开始查找
  • // 从任意位置开始查找
  • . 从当前节点开始查找
  • .. 从当前节点的父节点开始查找
  • @ 选取属性
  • //div/a 从div下面查找所有为a标签的直接子节点
  • //div//a 从div下面查找所有的a标签
  • //div 查找html文档中的所有div标签
  • //div/book[1] 取出符合要求的第一个book标签, 下标从1开始
  • //div[last()] 取最后一个div标签
  • //div[last() -1] 取倒数第二个div标签
  • //div[@class] 取所有拥有class属性的div标签
  • //div[name="xiaomaoyu"] 取所有name等于小猫鱼的div标签
  • //div/* 取div下所有的标签
  • //* 取html所有标签
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值