SparkSQL常用聚合函数

最新推荐文章于 2025-04-18 21:20:26 发布

千年小妖L

最新推荐文章于 2025-04-18 21:20:26 发布

阅读量1.5k

点赞数 2

分类专栏： spark 文章标签：大数据 spark sql

本文链接：https://blog.youkuaiyun.com/weixin_42947670/article/details/108431173

版权

本文详细介绍了SparkSQL中的聚合函数，包括简单聚合如count、countDistinct、approx_count_distinct、first、last、min、max、sum、sumDistinct、avg，以及数学函数和将数据聚合到集合中。同时，讨论了分组聚合和如何自定义聚合函数，特别是有类型的和无类型的自定义聚合函数的实现方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚合函数Aggregations

一、简单聚合

1.1 数据准备

// 需要导入 spark sql 内置的函数包
import org.apache.spark.sql.functions._

val spark = SparkSession.builder().appName("aggregations").master("local[2]").getOrCreate()
val empDF = spark.read.json("/usr/file/json/emp.json")
// 注册为临时视图，用于后面演示 SQL 查询
empDF.createOrReplaceTempView("emp")
empDF.show()

1.2 count

// 计算员工人数
empDF.select(count("ename")).show()

1.3 countDistinct

// 计算姓名不重复的员工人数
empDF.select(countDistinct("deptno")).show()

1.4 approx_count_distinct

通常在使用大型数据集时，你可能关注的只是近似值而不是准确值，这时可以使用 approx_count_distinct 函数，并可以使用第二个参数指定最大允许误差。

empDF.select(approx_count_distinct ("ename",0.1)).show()

1.5 first & last

获取 DataFrame 中指定列的第一个值或者最后一个值。

empDF.select(first("ename"),last("job")).show()

1.6 min & max

获取 DataFrame 中指定列的最小值或者最大值。

empDF.select(min("sal"),max("sal")).show()

1.7 sum & sumDistinct

求和以及求指定列所有不相同的值的和。

empDF.select(sum("sal")).show()
empDF.select(sumDistinct("sal")).show()

1.8 avg

内置的求平均数的函数。

empDF.select(avg("sal")).show()

1.9 数学函数

Spark SQL 中还支持多种数学聚合函数，用于通常的数学计算，以下是一些常用的例子：

// 1.计算总体方差、均方差、总体标准差、样本标准差
empDF.select(var_pop("sal"), var_samp("sal"), stddev_pop("sal"), stddev_samp("sal")).show()

// 2.计算偏度和峰度
empDF.select(skewness("sal"), kurtosis("sal")).show()

// 3. 计算两列的皮尔逊相关系数、样本协方差、总体协方差。(这里只是演示，员工编号和薪资两列实际上并没有什么关联关系)
empDF.select(corr("empno"

最低0.47元/天解锁文章