Spark编写UDF函数案例

最新推荐文章于 2025-03-21 08:00:00 发布

栗子呀！

最新推荐文章于 2025-03-21 08:00:00 发布

阅读量1k

点赞数

分类专栏：大数据Spark专栏文章标签： spark scala 大数据 hadoop

本文链接：https://blog.youkuaiyun.com/qq_43665254/article/details/112691649

版权

大数据Spark专栏专栏收录该内容

17 篇文章

订阅专栏

本文介绍了在Spark SQL中如何创建和使用用户定义函数(UDF)来实现数据列的求和。以一个具体的案例展示，通过创建一个UDF将orders表中的'order_dow'和'order_number'两列进行数值相加，生成新的列'plus'，从而展示了UDF在数据处理中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前述

SparkSql中自定义函数包括UDF和UDAF

UDF：一进一出 UDAF:多进一出（联想Sum函数）

二、UDF函数

UDF:用户自定义函数，user defined function

* 根据UDF函数参数的个数来决定是实现哪一个UDF  UDF1，UDF2。。。。UDF1xxx
* UDF1 传一个参数  UDF2传两个参数。。。。。

orders表

+--------+-------+--------+------------+---------+-----------------+----+
|order_id|user_id|eval_set|order_number|order_dow|order_hour_of_day|dspo|
+--------+-------+--------+------------+---------+-----------------+----+
| 2539329|      1|   prior|           1|        2|               08| 0.0|
| 2398795|      1|   prior|           2|        3|               07|15.0|
|  473747|      1|   prior|           3|        3|               12|21.0|
| 2254736|      1|   prior|           4|        4|               07|29.0|
|  431534|      1|   prior|           5|        4|               15|28.0|
+--------+-------+--------+------------+---------+-----------------+----+

需求：将orders表中 order_dow和order_number进行求和

编写UDF一定要导入
import org.apache.spark.sql.functions._
编写UDF
val plusUdf = udf((col1:String,col2:String)=>col1.toInt + col2.toInt)
调用UDF
orders.withColumn("plus",plusUdf(col("order_dow"),col("order_number")))