Spark 2.0常用聚合函数以及其他常用函数

最新推荐文章于 2025-06-19 17:59:08 发布

原创最新推荐文章于 2025-06-19 17:59:08 发布 · 2.5k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Spark2.0常用聚合函数以及其他常用函数

实战同时被 2 个专栏收录

61 篇文章

订阅专栏

spark

44 篇文章

订阅专栏

本文通过具体示例展示了如何使用Apache Spark的SQL模块中的聚合函数，如avg、sum、max、min、count和countDistinct进行数据处理。通过连接employee和department两个数据集，并按部门分组，计算每个部门的平均工资、总工资、最高工资、最低工资以及员工数量和去重后的员工数量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

官网聚合函数api
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$

avg sum max min count countDistinct

package com.scala.spark.function

import org.apache.spark.sql.SparkSession

object AggregateFunctionAndOtherFunction {
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().appName("untyped").master("local").getOrCreate()
        import spark.implicits._
        import org.apache.spark.sql.functions._
        val employee=spark.read.json("employee")
        val department=spark.read.json("department")

//        employee.join(department,$"depId"===$"id")
//        .groupBy(department("name"))
//            .agg(round(avg(employee("salary")),2).alias("平均工资"),sum(employee("salary")).alias("总工资")
//            ,min(employee("salary")).alias("最低工资"),count(employee("name")).alias("多少个")
//                ,countDistinct(employee("name")).alias("去重个数")
//            )
//            .show()
        employee
            .join(department, $"depId" === $"id")
            .groupBy(department("name"))
            .agg(avg(employee("salary")), sum(employee("salary")), max(employee("salary")), min(employee("salary")), count(employee("name")), countDistinct(employee("name")))
            .show()




    }


}

在这里插入图片描述


        employee.select(employee("name"),current_date(),current_timestamp(),rand(),concat(employee("name"),employee("age")),concat_ws("//",employee("name"),employee("age")))
            .show()

在这里插入图片描述