Spark 自定义UDF函数

最新推荐文章于 2025-10-04 15:15:00 发布

逆风飞翔的小叔

最新推荐文章于 2025-10-04 15:15:00 发布

阅读量1.5k

点赞数 9

CC 4.0 BY-SA版权

分类专栏： spark 入门到精通文章标签： Spark 自定义UDF函数 Spark UDF函数

本文链接：https://blog.youkuaiyun.com/congge_study/article/details/124537712

spark 入门到精通专栏收录该内容

22 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

当Spark内置的UDF不满足业务需求时，可以通过自定义UDF来实现个性化操作。本文介绍了三种自定义UDF的方式：通过RDD，累加器和UDAF弱类型，并详细阐述了每种方式的实现过程。

前言

用户可以通过 spark.udf 功能添加自定义函数，实现自定义功能

案例需求

我们期望在查询的语句里面，对某些字段的结果拼接特定的前缀

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object SparkSQL_UDF1 {


  def main(args: Array[String]): Unit = {

    // TODO 创建SparkSQL的运行环境
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("sparkSQL")
    val spark = SparkSession.builder().config(sparkConf).getOrCreate()
    import spark.implicits._

    val df = spark.read.json("E:\\code-self\\spi\\datas\\use

了解本专栏