简述
在使用spark sql处理数据的时候经常要自定义一些udf函数来实现需求,本文介绍基础的自定义UDF实现。
实现过程
创建SparkSession
val spark = SparkSession.builder()
.master("local[2]")
.appName("test")
.getOrCreate()
创建测试数据
val sc = spark.sparkContext
val rdd = sc.parallelize(Seq("a","b"))
import spark.implicits._
val frame = rdd.toDF("id")
frame.createOrReplaceTempView("frame")
frame.show()
编写自定义函数 a ,一个简单的需求,将字母大写
val a =(x:String)=>x.toUpperCase
将函数a注册成udf函数,该udf函数取名为 x
spark.udf.register("x",a)