【02单表查询】——03:OVER子句

本文深入解析SQL OVER子句及其开窗函数的功能、应用与区别,包括GROUPBY与OVER的区别、实例演示及排名函数ROW_NUMBER、RANK、DENSE_RANK与NTILE的使用方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

——OVER子句介绍
OVER子句用于为行定义一个窗口,一遍进行特定的计算,可以把行的窗口简单的理解成是运算符操作的一个行的集合,例如,聚合函数和排名函数都可以支持OVER子句的运算类型。由于OVER子句为这些函数提供了的一个行的窗口,所以这些函数也叫做“开窗函数”;

——GROUP BY和OVER的区别
集合开窗函数很group by有一点类似的就是 —— 都可以对行进行分组,但是group by对数据进行分组之后,查询会为每个组只返回一行,因此也限制了所有的表达式为每组只能返回一个值;聚合开窗函数使用over子句提供窗口作为上下文,对窗口中的一组值进行操作,而不是使用group by子句提供的上下文,这样就不必对数据进行分组,还能够在同一行中同时返回基础行的列和聚合列

——OVER子句实例

SELECT orderid , custid , val,
SUM(val) OVER() AS totalvalue,
SUM(val) OVER(PARTITON BY custid) AS custtotalvalue
FROM Sales.OrderValues

我的实例数据库查询结果如下
这里写图片描述
上面的结果集我已经画出了蓝色的线条,右下角那个区域多画了一个进去,忽略那条多画的数据,会发现每个蓝色线块都是一个组;

其实呀,带空圆括号的OVER子句会对所有的行进行计算,这里的所有的行指的是经过WHERE、GROUP BY、HAVING处理阶段后剩下的那些行,注意:只有在SELECT和ORDER BY阶段才可以使用OVER子句,这里重点介绍在SELECT子句中的应用;

最后一列额两个蓝色块是按找custid进行分组处理的

SUM(val) OVER(PARTITON BY custid) AS custtotalvalue

在OVER中分区/分组使用PARTITON BY子句

OVER子句的一个优点就是能够在返回基本列的同时,在同一行对他们进行聚合;也可以在表达式中混合使用基本列和聚合列

SELECT orderid,custid,val,
100.* val / SUM(val) OVER() AS pctall,
100.* val / SUM(val) OVER(PARTITON BY custid) AS pctcust
FROM Sales.OrderValues

查询结果集为
这里写图片描述
注意,在表达和式中使用的是十进制实数100.(100后面加个点),而不是直接使用整数100,因为这样可以隐式的将整数值val和SUM(val)转换成十进制实数值,否则,表达式中的除法将是整数除法,会截去熟知的小数部分。

——OVER()子句的排名函数
OVER子句还支持四种排名函数:
1、ROW_NUMBER(行号);
2、RANK(排名);
3、DENSE_RANK(密集排名);
4、NTILE
下面演示一下这个四个排名函数的简单用法

SELECT orderid,custid,val,
ROW_NUMBER() OVER(ORDER BY val) AS rownum,
RANK() OVER(ORDER BY val) AS rank,
DENSE_RANK(ORDER BY val) AS dense_rank,
NTILE(10) OVER(ORDER BY val) AS ntile
FROM Sales.OrderValues
ORDER BY val

这里写图片描述

注意看蓝色画线区域各个列的区别

ROW_NUMBER()
该函数为查询的结果集中的各行分配一个递增的行号,其逻辑顺序通过OVER子句中的ORDER BY语句进行指定,在我们的查询例子中,逻辑顺序基于的是val列,因此可以看到,随着val值得增加,行号也随着增加,即使val没有增加,行号依然增加,所以说如果ORDER BY不能唯一的确定行的顺序,查询结果就是不确定的。

RANK()和DENSE_RANK()
ROW_NUMBER()函数即使排序值相同,也会为其生成唯一的行号,如果想让同样的值生成的号是一样的那么可以考虑使用RANK()和DENSE_RANK()函数,它们为具有相同逻辑排序值的所有行生成同样的排名。
RANK()和DENSE_RANK()之间的区别是:RANK表示之前有多少行居右更低的排序值,DENSE_RANK则表示之前有多少个更低的排序值

NTILE()
NTILE()函数可以将行关联到组,并为每个行分配一个所属的组号,NTILE接收一个表示组数量的参数,并要在OVER中指定逻辑顺序,我们上面的例子查询的830行被分为了10组,每组83条数据,如果组数无法整除表的行数,余数中的每一行会被平均分配到最前面的每个组,假如有102行,被分为10组,余数的2组会被平均分配到第一组和第二组,意思就是说第一组和第二组都有11条数据

和聚合开窗函数一样,排名函数也有PARTITON BY语句

SELECT orderid,custid,val,
    ROW_NUMBER() OVER(PARTITION BY custid ORDER BY val) AS rownum
FROM Sales.OrderValues
ORDER BY custid,val;

该查询会输出:
这里写图片描述
看到行号是分组分配了吧

注意:OVER子句中指定的ORDER BY逻辑与数据展示没什么关系,并不会改变查询结果表最终的任何内容。

——SQL查询语句逻辑处理顺序总结
那么到现在为止,我对我之前到现在提及到的所有子句(【02单表查询】——01:各阶段查询顺序和各阶段解释 ;【02单表查询】——02:TOP )进行一个逻辑处理顺序总结

1、FROM
2、GROUP BY
3、HAVING
4、SELECT
4-1OVER
4-2 DISTINCT
4-3 TOP
5、ORDER BY


期待你阅读下一篇博文【02单表查询】——04:谓词和运算符

### SQL Server 中多查询去重的方法 在 SQL Server 中,`DISTINCT` 和 `GROUP BY` 是两种常用的去重方式。以下是它们的具体应用以及如何在多查询中实现数据去重。 #### 使用 DISTINCT 进行去重 `DISTINCT` 关键字用于返回唯一不同的值,能够有效消除结果集中的重复行。它适合于简的去重场景,而不涉及复杂的聚合计算。 语法如下: ```sql SELECT DISTINCT column1, column2 FROM table_name; ``` 当涉及到多查询时,可以通过连接多个并将目标列放入 `DISTINCT` 后面来实现去重。例如: 假设存在两个 `tableA` 和 `tableB`,我们希望获取两联合后的唯一记录: ```sql SELECT DISTINCT A.column1, B.column2 FROM tableA A JOIN tableB B ON A.common_column = B.common_column; ``` 此方法的特点在于其性能通常优于 `GROUP BY`(针对简去重),但它无法进行任何聚合运算[^1]。 --- #### 使用 GROUP BY 进行去重 `GROUP BY` 子句不仅可用于分组,还可以与聚合函数结合使用以完成更复杂的数据处理需求。如果需要基于某些字段进行分组并保留每组的一个代值,则可以采用这种方式。 基本语法为: ```sql SELECT column1, COUNT(column2) FROM table_name GROUP BY column1; ``` 同样,在多查询环境下也可以利用这一特性来进行高级别的数据清洗工作。比如下面的例子展示了如何通过最小化 ID 来达到去除冗余的目的: ```sql DELETE dbo.students FROM dbo.students AS aa LEFT JOIN ( SELECT MIN(stu_id) AS id FROM dbo.students GROUP BY stu_name, stu_gender, stu_phone, stu_birthday ) AS bb ON aa.stu_id = bb.id WHERE bb.id IS NULL; ``` 这段脚本先找出每个学生组合下的最早注册者作为标准样本,再删除其余副本条目[^2]。 值得注意的是,虽然两者都能解决相似的问题,但由于逻辑上的差异使得他们的适用范围各有侧重——前者更适合纯追求效率的小规模项目;后者则因其强大的扩展能力而被广泛应用于大型商业智能解决方案之中[^3]。 另外还有一种情况就是完全避开这两种传统手段转而借助窗口函数达成相同效果。例如下面给出了一种不依赖 distinct/groupby 实现的方案: ```sql WITH RankedData AS ( SELECT *, ROW_NUMBER() OVER(PARTITION BY year, num ORDER BY some_order_col) AS rn FROM ( SELECT a AS year, d AS num FROM t9 UNION ALL SELECT b AS year, d AS num FROM t9 UNION ALL SELECT c AS year, d AS num FROM t9 ) subquery ) SELECT year, num FROM RankedData WHERE rn = 1 ORDER BY num; ``` 这种方法特别适用于那些既想保持原始数据结构又不想引入额外开销的应用场合[^4]。 --- ### 结论 综上所述,在面对实际业务挑战的时候应该根据具体情况权衡利弊从而挑选最合适的工具。如果是纯的去掉几个字段里的重复项而且不需要考虑其他附加条件的话那么直接选用 DISTINCT 就已经足够了;然而一旦牵涉到了诸如统计数量或者寻找特定属性之类的任务那就得依靠更加灵活且功能全面的 GROUP BY 或者创新性的 window function 技术路线才行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值