基于spark的Scala编程—在当前会话实现UDF（自定函数）

最新推荐文章于 2025-03-21 08:00:00 发布

心相印-Garrett

最新推荐文章于 2025-03-21 08:00:00 发布

阅读量650

点赞数 1

分类专栏： Spark/Hadoop 文章标签： spark spark-sql Scala UDF

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/wgh1015398431/article/details/103291301

版权

Spark/Hadoop 专栏收录该内容

26 篇文章

订阅专栏

本文主要是记录关于自定义函数的用法，spark-sql中的自定义函数有两种方式：

sqlContext.udf.register，这种方式只能在sql中可见；
spark.sql.function.udf()，这种方式外部都可见；

本文主要介绍第一种方式，我目前应用到的是第一种方式，代码和案例如下：

    import sparkSession.implicits._
    import org.apache.spark.sql.functions._
    // 自定义spark session函数以及应用
    val executeCaseSql = sparkSession.udf.register("executeCaseSql",
      (caseSql: String) => caseSql.trim
    )
    caseDataUpdateInTimeDf.withColumn("max_date", executeCaseSql($"case_sql")).show()