lxml结合xpath注意事项

最新推荐文章于 2025-10-15 14:35:36 发布

原创最新推荐文章于 2025-10-15 14:35:36 发布 · 294 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #xpath #html

爬虫同时被 2 个专栏收录

9 篇文章

订阅专栏

Python学习

8 篇文章

订阅专栏

本文介绍了使用Python的lxml库结合XPath解析HTML的一些关键点：1) 使用Element.xpath方法执行XPath选择；2) XPath函数返回值总是列表；3) 获取标签属性如@a/@href；4) 通过.text()获取文本内容；5) 在当前元素下查找子孙节点，需在//前加点。

部署运行你感兴趣的模型镜像

1.使用Xpath语法，应该使用Element.xpath方法，来执行xpath选择，示例代码如下：
trs = html.xpath("//tr[position()>2]")
xpath函数返回的永远是一个列表

2.获取某个标签的属性：
href = html.xpath("//a/@href")

3.获取文本，通过xpath下的text（）函数：
address = tr.xpath("./td[4]/text()")[0]

4.在某个标签下使用xpath函数 , 获取其子孙函数, 应该在//的前面加一个点 ,代表在当前元素下获取address = tr.xpath("./td[4]/text()")[0]

#encoding: utf-8

from lxml import  etree

# 1.获取所有tr标签
# 2.获取第2个tr标签
# 3.获取所有class等于rowA的tr标签
# 4.获取所有a标签的href属性
# 5.获取所有的职位信息（纯文本）

parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("huilv.html",parser=parser)

# 1.获取所有tr标签
#//tr
# positions = html.xpath("//positionName")
# for pos in positions:
#     print(pos)

#xpath函数返回的是一个列表
# trs = html.xpath("//tr")
# for tr in trs:
#     print(etree.tostring(tr, encoding="utf-8").decode('utf-8'))


# 2.获取第2个tr标签
# tr = html.xpath("//tr[2]")[0]
# print(etree.tostring(tr, encoding="utf-8").decode('utf-8'))

# 3.获取所有class等于rowA的tr标签
# trs = html.xpath("//tr[@class = 'rowA']")
# for tr in trs:
#     print(etree.tostring(tr, encoding="utf-8").decode('utf-8'))


# tds = html.xpath("//tr[@class = 'rowA']/td")
# for td in tds:
#     print(etree.tostring(td, encoding="utf-8").decode('utf-8'))


trs = html.xpath("//tr[position()>1]")
for tr in trs:
    td = tr.xpath(".//td[1]/text()")[0]
    print(td)

您可能感兴趣的与本文相关的镜像

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本