spark dataFrame自定义聚合函数
spark2.4
scala2.11
准备环境
val spark = SparkSession.builder()
.master("local[*]")
.appName(this.getClass.getSimpleName)
.getOrCreate()
val sc = spark.sparkContext
准备数据
//造数据
val dataList = List(("A", List("v1", "v2")),
("A", List("v1", "v3")),
("B", List("v1", "v2")),
("B", List("v3", "v4")),
("B", List("v1", "v3")))
import spark.implicits._
val initDF = sc.parallelize(dataList).toDF("key","v_list")
+---+--------+
|key|v_list |
+---+--------+
|A |[v1, v2]|
|A |[v1, v3]|
|B |[v1, v2]|
|B |[v3, v4]|
|B |[v1, v3]|
+---+--------+
需求

本文介绍了在Spark 2.4环境下,使用Scala 2.11如何为DataFrame自定义聚合函数,以处理Array类型的数据。通过环境配置、数据准备、需求分析、函数定义、注册及测试步骤,展示了如何实现这一功能并得出结果。
最低0.47元/天 解锁文章
1555

被折叠的 条评论
为什么被折叠?



