Spark之UDF失效

原创

已于 2022-10-22 10:12:37 修改 · 979 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #scala #大数据

于 2022-10-22 10:10:50 首次发布

在Spark项目中，遇到使用UDF处理DataFrame时，若输入字段存在null值导致UDF失效的问题。原因是catalyst在检查字段类型时，对于不可空原生类型且输入值为null时，会直接返回null。解决方案包括将字段定义为可空的java包装类型或改用when函数替代UDF进行转换操作。

背景

项目里需要对一个DataFrame，根据一个字段（country_id）新建出另一个字段（new_country_id），因此采用withColumn + udf的方式。但是country_id字段有null值，这使得udf失效。

代码

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types.LongType


object Main {
   
   
  def main(args: Array[String]): Unit = {
   
   
    val spark = new SparkSession.Builder().appName("planner")
      .master("local[*]")
      .config("spark.driver.host", "127.0.0.1")
      .getOrCreate()
    val myUDF = udf((countryID: Long) => {
   
   
      3L
    })
    import spark.implicits._
    val myDF = spark.sparkContext.parallelize(
      Seq(1L, 2L)
    ).toDF("id")
      .withColumn("country_id", when($"id" === 1 , lit(null).cast(LongType)).otherwise(lit(1)))
      .withColumn("new_country_id", myUDF($"country_id"))
    myDF.show(false)