Spark编写UDF函数案例

本文介绍了在Spark SQL中如何创建和使用用户定义函数(UDF)来实现数据列的求和。以一个具体的案例展示,通过创建一个UDF将orders表中的'order_dow'和'order_number'两列进行数值相加,生成新的列'plus',从而展示了UDF在数据处理中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前述

SparkSql中自定义函数包括UDF和UDAF

UDF:一进一出 UDAF:多进一出 (联想Sum函数)

二、UDF函数

UDF:用户自定义函数,user defined function

* 根据UDF函数参数的个数来决定是实现哪一个UDF  UDF1,UDF2。。。。UDF1xxx
* UDF1 传一个参数  UDF2传两个参数。。。。。

orders表

+--------+-------+--------+------------+---------+-----------------+----+
|order_id|user_id|eval_set|order_number|order_dow|order_hour_of_day|dspo|
+--------+-------+--------+------------+---------+-----------------+----+
| 2539329|      1|   prior|           1|        2|               08| 0.0|
| 2398795|      1|   prior|           2|        3|               07|15.0|
|  473747|      1|   prior|           3|        3|               12|21.0|
| 2254736|      1|   prior|           4|        4|               07|29.0|
|  431534|      1|   prior|           5|        4|               15|28.0|
+--------+-------+--------+------------+---------+-----------------+----+

需求:将orders表中 order_dow和order_number进行求和

编写UDF一定要导入
import org.apache.spark.sql.functions._
编写UDF
val plusUdf = udf((col1:String,col2:String)=>col1.toInt + col2.toInt)
调用UDF
orders.withColumn("plus",plusUdf(col("order_dow"),col("order_number")))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值