一文读懂窗口函数：从定义到实战，解锁数据分析新姿势

最新推荐文章于 2025-12-04 15:25:15 发布

原创最新推荐文章于 2025-12-04 15:25:15 发布 · 852 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #mysql #oracle

数据库专栏收录该内容

70 篇文章

订阅专栏

在数据处理与分析的日常工作中，我们经常会遇到这样的需求：计算每个部门的平均工资，同时保留每条员工的详细信息；或者在销售数据中，给每个地区的订单按金额排名，且不改变原始数据的行数。如果用传统的聚合函数（如SUM、AVG），往往需要通过子查询或关联查询来实现，不仅代码繁琐，效率也可能打折扣。这时候，窗口函数就成了提升效率的“神器”。

今天，我们就来全面拆解窗口函数——它是什么、有什么特点，以及在实际业务中该如何灵活运用。

一、什么是窗口函数？先搞懂“窗口”的本质

窗口函数（Window Function）是数据库中一类特殊的函数，它的核心在于“窗口”二字。这里的“窗口”并非我们电脑屏幕上的操作窗口，而是指一个与当前行相关的数据集——可以理解为，函数在计算时会“框选”住当前行周围的一批数据，这个被框选的数据集就是“窗口”。

与普通聚合函数（如GROUP BY + SUM）相比，窗口函数最大的区别在于：聚合函数会将数据分组后“合并”成一行结果，而窗口函数在计算后不会改变原始数据的行数，会为每一行都返回一个计算结果。

窗口函数的基本语法通常如下（不同数据库语法略有差异，以MySQL为例）：


函数名(列名) OVER (
    [PARTITION BY 列名1]  -- 可选，用于分组（划分窗口）
    [ORDER BY 列名2 [ASC/DESC]]  -- 可选，用于对窗口内数据排序
    [ROWS/RANGE BETWEEN 边界1 AND 边界2]  -- 可选，定义窗口的具体范围
) AS 别名

简单解释一下关键部分：

OVER()子句：这是窗口函数的标志，用于定义“窗口”的规则，没有它就不是窗口函数；
PARTITION BY：类似GROUP BY，用于将数据按指定列分组，每个分组就是一个独立的“窗口”，函数仅在组内计算；
ORDER BY：对每个“窗口”内的数据进行排序，主要用于排名类窗口函数（如RANK、ROW_NUMBER）；
ROWS/RANGE：更精细地定义窗口范围（如“当前行的前3行到后1行”），属于进阶用法。

二、窗口函数的核心价值：为什么一定要学它？

在了解定义后，我们更需要清楚它的优势——为什么说窗口函数能提升数据处理效率？

简化代码逻辑：传统实现“分组计算+保留明细”的需求，往往需要子查询、自连接，而窗口函数用一行代码就能搞定；
避免数据冗余：无需将聚合结果与原始数据关联，减少中间数据的生成；
支持灵活计算：可以轻松实现“移动平均”“累计求和”等动态计算，这些需求用普通聚合函数很难高效实现。

常见的窗口函数分类：

排名类：RANK()、DENSE_RANK()、ROW_NUMBER()
聚合类：SUM()、AVG()、COUNT()（搭配OVER子句使用）
取值类：LAG()（取前N行数据）、LEAD()（取后N行数据）、FIRST_VALUE()（取窗口内第一行）、LAST_VALUE()（取窗口内最后一行）

三、实战场景：窗口函数到底用在哪？

理论再清晰，不如实战来得直观。下面结合4个高频业务场景，带大家感受窗口函数的魅力。为了方便演示，我们先定义一个基础数据表sales_info，包含“地区、销售日期、销售人员、销售额”4个字段，数据如下：

地区	销售日期	销售人员	销售额（元）
华北	2025-01-01	张三	5000
华北	2025-01-02	李四	6000
华东	2025-01-01	王五	8000
华东	2025-01-02	赵六	7000
华北	2025-01-03	张三	7500

场景1：分组排名——给各地区的销售业绩排先后

需求：按“地区”分组，给每个地区内的销售人员按“销售额”降序排名，同时保留所有销售明细。

这里我们用RANK()函数，代码如下：


SELECT 
  地区, 销售人员, 销售额,
  RANK() OVER (PARTITION BY 地区 ORDER BY 销售额 DESC) AS 地区内排名
FROM sales_info;

执行结果：

地区	销售人员	销售额	地区内排名
华北	张三（1月3日）	7500	1
华北	李四	6000	2
华北	张三（1月1日）	5000	3
华东	王五	8000	1
华东	赵六	7000	2

如果需要“无并列排名”（即使销售额相同也按顺序排），可以将RANK()换成ROW_NUMBER()；如果需要“并列后不跳号”，则用DENSE_RANK()。

场景2：分组聚合+明细——计算各地区平均销售额，关联个人业绩

需求：显示每个销售人员的销售额，同时显示其所在地区的平均销售额，方便对比个人与地区水平的差距。

用AVG()作为窗口函数，代码如下：


SELECT 
  地区, 销售人员, 销售额,
  AVG(销售额) OVER (PARTITION BY 地区) AS 地区平均销售额,
  销售额 - AVG(销售额) OVER (PARTITION BY 地区) AS 与平均差距
FROM sales_info;

执行后会清晰看到：张三1月3日的销售额7500元，华北地区平均销售额6166.67元，他的业绩比地区平均高1333.33元。这种“明细+聚合”的结果，用传统GROUP BY是无法直接实现的。

场景3：累计计算——按时间统计累计销售额

需求：按“地区”分组，按“销售日期”升序，计算每个地区的每日累计销售额。

用SUM()搭配ORDER BY实现累计，代码如下：


SELECT 
  地区, 销售日期, 销售额,
  SUM(销售额) OVER (PARTITION BY 地区 ORDER BY 销售日期) AS 累计销售额
FROM sales_info;

执行结果中，华北地区1月3日的累计销售额=5000（1月1日）+6000（1月2日）+7500（1月3日）=18500元，实现了按时间的动态累计。

场景4：前后取值——获取相邻日期的销售额

需求：显示每个销售记录的销售额，同时显示“前一天”和“后一天”的销售额（如果没有则显示NULL），用于分析业绩波动。

用LAG()和LEAD()函数，代码如下：


SELECT 
  地区, 销售日期, 销售额,
  LAG(销售额, 1) OVER (PARTITION BY 地区 ORDER BY 销售日期) AS 前一天销售额,
  LEAD(销售额, 1) OVER (PARTITION BY 地区 ORDER BY 销售日期) AS 后一天销售额
FROM sales_info;