xpath用法以及使用案例

最新推荐文章于 2024-01-20 15:00:25 发布

miaowu~

最新推荐文章于 2024-01-20 15:00:25 发布

阅读量398

点赞数 2

CC 4.0 BY-SA版权

分类专栏： xpath用法以及使用案例文章标签： xpath用法以及使用案例

本文链接：https://blog.youkuaiyun.com/weixin_45143622/article/details/99678866

xpath用法以及使用案例专栏收录该内容

1 篇文章

订阅专栏

本文介绍了XPath的常用语法，包括节点名定位、子孙节点选取、直接子节点选取、属性定位以及属性值匹配。详细讲解了如何通过属性匹配进行多属性匹配和单属性多值匹配，并给出了具体的示例，如利用last()和position()函数进行按序选择。

xpath语法:

1.常用规则:
1. nodename: 节点名定位
2. //: 从当前节点选取子孙节点
3. /: 从当前节点选取直接子节点
4. nodename[@attribute="…"] 根据属性定位标签
5. @attributename: 获取属性
6. text(): 获取文本

2.属性匹配两种情况: 多属性匹配 & 单属性多值匹配
2.2 多属性匹配
示例: tree.xpath(’//div[@class=“item” and @name=“test”]/text()’)
2.1 单属性多值匹配
示例: tree.xpath(’//div[contains(@class, “dc”)]/text()’)

3.按序选择:
3.1 索引定位: 从1开始
3.2 last()函数
3.3 position()函数


```Python
解析示例: 示例解析的是本地文件

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Xpath练习文件</title>
</head>
<body>
<div id="007">
    "我是div标签的文字内容, 和下面的p标签还有div标签是同级的哦"
    <p>这是p标签内的文字内容</p>
    <div>这是p标签同级的div标签</div>
</div>

<div class="divtag">
    <ul>
        <li>第1个li标签</li>
        <li>第2个li标签</li>
        <li>第3个li标签</li>
        <li>第4个li标签</li>
        <li>第5个li标签</li>
    </ul>
    <a href="https://www.baidu.com">这是百度的跳转连接</a>
</div>


<div class="c1" name="laoda">老大在此</div>
<div class="c1 c3" name="laoer">老二任性, class有两个值</div>
<div class="c1" name="laosan">我是老三</div>

</body>
</html>

from lxml import etree

tree = etree.parse('./x.html', etree.HTMLParser())

# 1.根据节点名, 即nodename定位title标签, 获取标签内文字
title_text = tree.xpath('//title/text()')
print(title_text)

# 2.根据节点属性定位: 定位id为007的div标签
div_007 = tree.xpath('//div[@id="007"]')
print(div_007)

# 3.示例直接子节点与子孙节点:/, //
div_007_one = tree.xpath('//div[@id="007"]/text()')
print(div_007_one)
div_007_two = tree.xpath('//div[@id="007"]//text()')
print(div_007_two)

# 4.获取a标签的href属性
a_href = tree.xpath('//div[@class="divtag"]/a/@href')
print(a_href)

# 5.多属性定位: 根据class属性和name属性定位div标签
div_two_attr = tree.xpath('//div[@class="c1" and @name="laoda"]/text()')
print(div_two_attr)

# 6.属性多值定位: 定位所有class中有c1的div标签
div_c1 = tree.xpath('//div[contains(@class, "c1")]')

# 7.按序定位
li_first = tree.xpath('//div[@class="divtag"]/ul/li[1]/text()')  # 定位第一个li标签, 获取其文本
print(li_first)

li_last = tree.xpath('//div[@class="divtag"]/ul/li[last()]/text()')  # 定位最后一个li标签
print(li_last)

li_daotwo = tree.xpath('//div[@class="divtag"]/ul/li[last()-1]/text()')  # 定位倒数第二个li标签
print(li_daotwo)

li_qianthree = tree.xpath('//div[@class="divtag"]/ul/li[position()<4]/text()')  # 定位前三个li标签
print(li_qianthree)