lxml结合xpath注意事项

本文介绍了使用Python的lxml库结合XPath解析HTML的一些关键点:1) 使用Element.xpath方法执行XPath选择;2) XPath函数返回值总是列表;3) 获取标签属性如@a/@href;4) 通过.text()获取文本内容;5) 在当前元素下查找子孙节点,需在//前加点。
部署运行你感兴趣的模型镜像

1.使用Xpath语法,应该使用Element.xpath方法,来执行xpath选择,示例代码如下:
trs = html.xpath("//tr[position()>2]")
xpath函数返回的永远是一个列表

2.获取某个标签的属性:
href = html.xpath("//a/@href")

3.获取文本 , 通过xpath下的text()函数:
address = tr.xpath("./td[4]/text()")[0]

4.在某个标签下使用xpath函数 , 获取其子孙函数, 应该在//的前面加一个点 ,代表在当前元素下获取address = tr.xpath("./td[4]/text()")[0]

 

#encoding: utf-8

from lxml import  etree

# 1.获取所有tr标签
# 2.获取第2个tr标签
# 3.获取所有class等于rowA的tr标签
# 4.获取所有a标签的href属性
# 5.获取所有的职位信息(纯文本)

parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("huilv.html",parser=parser)

# 1.获取所有tr标签
#//tr
# positions = html.xpath("//positionName")
# for pos in positions:
#     print(pos)

#xpath函数返回的是一个列表
# trs = html.xpath("//tr")
# for tr in trs:
#     print(etree.tostring(tr, encoding="utf-8").decode('utf-8'))


# 2.获取第2个tr标签
# tr = html.xpath("//tr[2]")[0]
# print(etree.tostring(tr, encoding="utf-8").decode('utf-8'))

# 3.获取所有class等于rowA的tr标签
# trs = html.xpath("//tr[@class = 'rowA']")
# for tr in trs:
#     print(etree.tostring(tr, encoding="utf-8").decode('utf-8'))


# tds = html.xpath("//tr[@class = 'rowA']/td")
# for td in tds:
#     print(etree.tostring(td, encoding="utf-8").decode('utf-8'))


trs = html.xpath("//tr[position()>1]")
for tr in trs:
    td = tr.xpath(".//td[1]/text()")[0]
    print(td)

 

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值