【Spark】sparksql中使用自定义函数

原创已于 2023-04-13 13:41:58 修改 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

于 2020-03-11 08:47:09 首次发布

Spark 专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何使用Apache Spark通过面向对象和面向函数两种方式自定义UDF（用户定义函数），实现字符串的大小写转换。代码示例展示了如何在SparkSession中注册并调用这些函数。

代码中分别用面向对象和面向函数两种写法自定义了两个函数:
low2Up: 小写转大写
up2Low: 大写转小写

import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.{DataFrame, SparkSession}

object SparkSQLFunction {
  def main(args: Array[String]): Unit = {
    //1. 构建SparkSession对象
    val sparkSession: SparkSession = SparkSession
      .builder()
      .appName("SparkSQLFunction")
      .master("local[2]")
      .getOrCreate()
    //2. 测试数据加载为DataFrame
    val dataFrame: DataFrame = sparkSession.read.text("E:\\test_udf_data.txt")
    //3. 创建临时表
    dataFrame.createTempView("t_udf")
    //4. 调用udf的register方法,这一步是构建udf的关键; register接受三个值: 注册udf名称,函数体,返回值类型 (面向对象写法)
    sparkSession.udf.register("low2Up",new UDF1[String, String] {
      override def call(t1: String): String = {t1.toUpperCase}
    },StringType)
    //5. 另外一种更加方便的构建udf方式 (面向函数写法)
    sparkSession.udf.register("up2Low",(x:String)=>x.toLowerCase)
    //6. 调用sparksql测试udf函数
    sparkSession.sql("select value from t_udf").show()
    sparkSession.sql("select low2Up(value) from t_udf").show()
    sparkSession.sql("select up2Low(value) from t_udf").show()
    //7. 关闭连接
    sparkSession.stop()
  }
}