1.使用Xpath语法,应该使用Element.xpath方法,来执行xpath选择,示例代码如下:
trs = html.xpath("//tr[position()>2]")
xpath函数返回的永远是一个列表
2.获取某个标签的属性:
href = html.xpath("//a/@href")
3.获取文本 , 通过xpath下的text()函数:
address = tr.xpath("./td[4]/text()")[0]
4.在某个标签下使用xpath函数 , 获取其子孙函数, 应该在//的前面加一个点 ,代表在当前元素下获取address = tr.xpath("./td[4]/text()")[0]
#encoding: utf-8
from lxml import etree
# 1.获取所有tr标签
# 2.获取第2个tr标签
# 3.获取所有class等于rowA的tr标签
# 4.获取所有a标签的href属性
# 5.获取所有的职位信息(纯文本)
parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("huilv.html",parser=parser)
# 1.获取所有tr标签
#//tr
# positions = html.xpath("//positionName")
# for pos in positions:
# print(pos)
#xpath函数返回的是一个列表
# trs = html.xpath("//tr")
# for tr in trs:
# print(etree.tostring(tr, encoding="utf-8").decode('utf-8'))
# 2.获取第2个tr标签
# tr = html.xpath("//tr[2]")[0]
# print(etree.tostring(tr, encoding="utf-8").decode('utf-8'))
# 3.获取所有class等于rowA的tr标签
# trs = html.xpath("//tr[@class = 'rowA']")
# for tr in trs:
# print(etree.tostring(tr, encoding="utf-8").decode('utf-8'))
# tds = html.xpath("//tr[@class = 'rowA']/td")
# for td in tds:
# print(etree.tostring(td, encoding="utf-8").decode('utf-8'))
trs = html.xpath("//tr[position()>1]")
for tr in trs:
td = tr.xpath(".//td[1]/text()")[0]
print(td)

本文介绍了使用Python的lxml库结合XPath解析HTML的一些关键点:1) 使用Element.xpath方法执行XPath选择;2) XPath函数返回值总是列表;3) 获取标签属性如@a/@href;4) 通过.text()获取文本内容;5) 在当前元素下查找子孙节点,需在//前加点。
1万+

被折叠的 条评论
为什么被折叠?



