sparkSql分析函数和窗口函数（rows/range）的语法及案例

最新推荐文章于 2025-04-19 18:33:03 发布

IT change the world

最新推荐文章于 2025-04-19 18:33:03 发布

阅读量3.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： spark 文章标签：大数据 sparkSql range和rowsd的使用 sparkSql分析函数 rows和range窗口函数

本文链接：https://blog.youkuaiyun.com/csdnliu123/article/details/105848432

本文介绍了SparkSQL中分析函数的语法，包括sum、max、min、count、avg等聚合函数以及lead、lag、rank等排名函数。重点解析了over关键字、partition by、order by和rows/range子句的功能。并通过rank()排名函数、lag()和lead()比较函数以及range()和rows()窗口函数的案例进行了深入讲解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1分析函数的语法：

分析函数名(参数) over(partition by子句order by子句rows/range子句)

1.1分析函数名：
sum、max、 min、 count、 avg等聚合函数
lead、 lag等比较函数
rank等排名函数
1.2over关键字
表示前面的函数是分析函数，不是普通的聚合函数
1.3分析子句: over关键字后面括号内的内容为分析子句，包含以下三部分内容.
partition by :分组子句，表示分析函数的计算范围,各组之间互不相干
order by:排序子句，表示分组后，组内的排序方式
rows/range: 窗口子句，是在分组(partition by)后，表示组内的子分组(也即窗口)，是分析函数的计算范围窗口

2案例：

2.1 rank()排名函数案例：

package sparkSql

import java.util.Properties

import org.apache.spark.sql.{DataFrame, SparkSession}
object sparkSql_fenxi {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder().master("local[2]")
      .appName("Spark SQL ana

最低0.47元/天解锁文章