利用lit和typeLit为spark dataframe增加常量列 & udf函数传入额外参数

最新推荐文章于 2024-10-16 16:44:58 发布

原创最新推荐文章于 2024-10-16 16:44:58 发布 · 4.5k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#spark

spark 专栏收录该内容

5 篇文章

订阅专栏

本文围绕Spark展开，介绍了向DataFrame添加常量列的方法，包括使用typedLit函数添加复合类型常量列，使用lit函数添加简单类型常量列。还阐述了利用这两个函数向Spark UDF函数传入额外参数的方式，最后总结了这两个函数可生成常量列及为UDF传参的用途。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有时候由于数据处理需要，我们会为dataframe添加一个常量列，本文介绍向dataframe添加常量列的方法。

使用typedLit函数添加复合类型常量列

通过函数：org.apache.spark.sql.functions.typedLit，可以添加List，Seq和Map类型的常量列。

scala> val df1 = sc.parallelize(Seq("Hello", "world")).toDF()
df1: org.apache.spark.sql.DataFrame = [value: string]

scala> df1.withColumn("some_array", typedLit(Seq(7, 8, 9))).show()
+-----+----------+
|value|some_array|
+-----+----------+
|Hello| [7, 8, 9]|
|world| [7, 8, 9]|
+-----+----------+

scala> df1.withColumn("some_struct", typedLit(("teststring", 1, 0.3))).show(false)
+-----+--------------------+
|value|some_struct         |
+-----+--------------------+
|Hello|[teststring, 1, 0.3]|
|world|[teststring, 1, 0.3]|
+-----+--------------------+

scala> df1.withColumn("data_map", typedLit(Map("k1" -> 1, "k2" -> 2))).show(false)
+-----+------------------+
|value|data_map          |
+-----+------------------+
|Hello|[k1 -> 1, k2 -> 2]|
|world|[k1 -> 1, k2 -> 2]|
+-----+------------------+

使用lit函数来添加简单类型常量列

可以通过函数：org.apache.spark.sql.functions.lit来添加简单类型(string,int,float,long,等)的常量列。

scala> df1.withColumn("data_map", lit("teststring")).show(false)
+-----+----------+
|value|data_map  |
+-----+----------+
|Hello|teststring|
|world|teststring|
+-----+----------+

利用lit或者typedLit函数向spark udf函数传入额外参数

1 定义带额外参数的udf函数

 val extract = udf{(params:String, field_name:String)=>
     val obj = JSON.parseObject(params)
     obj.getString(field_name)
  }

该函数中，params参数是常规的 spark dataframe 中的列，而 field_name 参数是需要额外向函数传入的非列参数，我们需要借助它完成我们的函数逻辑。

2 使用带额外参数的 udf函数

    es_data
      .withColumn("dms1", extract(col("params"),lit("dms1")))
      .withColumn("dms2", extract(col("params"),lit("dms2")))

在这段代码中，params字段列是一个json字符串

样例值

{"dms1":"v1","dms2":"v2"}

我们实现了从params列中解析我们需要的dms1值和dms2值,并形成我们的dms1,dms2新列。我们知道在自定义udf函数时，每个参数一般都是dataframe中真实存在的列。

此处在调用我们定义的extract udf函数时，我们借助lit函数向udf中传入了dms1, dms2的字符串实参，若没有lit和typeLit是无法实现该功能的。

小结

本文介绍了spark sql 的lit和typeList函数的用途。主要有

1 可以生成dataframe的常量列

2 可以为自定义udf函数传入额外的非列参数