spark-12.sparkSQL_3_sparkSQL自定义函数

最新推荐文章于 2025-01-18 11:44:40 发布

蒙面小生

最新推荐文章于 2025-01-18 11:44:40 发布

阅读量313

点赞数

分类专栏： Spark 文章标签： spark sparkSQL

本文链接：https://blog.youkuaiyun.com/qq_30657195/article/details/106972600

版权

本文介绍了SparkSQL中的UDF和UDAF函数，包括弱类型和强类型UDAF的使用方法。此外，详细讲解了开窗函数的概念，如rank()和dense_rank()，并展示了如何在窗口函数中应用聚合信息和分组计算，同时提到了lag和lead函数的功能和参数含义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

UDF函数

通过spark.udf.register(“name”,func)来进行注册。使用select func() … 来直接调用。如：

val peopleDF = spark.read.json("examples/src/main/resources/people.json")
peopleDF.createOrReplaceTempView("people")
spark.udf.register("add",(x:String)=>"A:"+x)
spark.sql("select add(name) from people").show

UDAF函数

1、弱类型UDAF函数

需要继承 UserDefinedAggregateFunction类，并复写方法。
注册一个UDAF函数。
使用自定以的UDAF函数。

如：

package com.dengdan.sparksql

import org.apache.spark.SparkConf
import org.apache.spark.sql.{
   Row, SparkSession}
import org.apache.spark.sql.expressions.{
   MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types.{
   DataType, DoubleType, IntegerType, LongType, StructField, StructType}

/**
 * 自定义UDAF函数
 * 样例数据：
 * {"name":"Michael", "salary":3000}
 * {"name":"Andy", "salary":4500}
 * {"name":"Justin", "salary":3500}
 * {"name":"Berta", "salary":4000}
 * 目标：求平均工资【工资的总额，工资的个数】
 */
class AverageSal extends UserDefinedAggregateFunction {
   
  //输入数据
  override def inputSchema: StructType = StructType(StructField("salary", LongType) :: Nil)

  //每个分区中的 共享变量
  override def bufferSchema: StructType = StructType(StructField("sum", LongType) ::

最低0.47元/天解锁文章