Spark 3.0 新特性深度解析
1. 版本变更概述
Spark 3.0 带来了诸多功能上的改变,若要详尽列举,篇幅会极长。下面为大家介绍一些显著的新特性。
2. 支持与弃用的语言
- 支持的语言 :Spark 3.0 支持 Python 3 和 JDK 11,且要求 Scala 版本为 2.12。
- 弃用的语言 :所有早于 3.6 的 Python 版本以及 Java 8 已被弃用,使用这些版本会收到警告信息。
3. DataFrame 和 Dataset API 的变化
-
unionAll()方法 :在之前的 Spark 版本中,Dataset 和 DataFrame API 已弃用unionAll()方法。但在 Spark 3.0 中,情况反转,unionAll()现在是union()方法的别名。 -
groupByKey()方法 :早期版本的 Spark 的Dataset.groupByKey()在键为非结构体类型(如 int、string、array 等)时,分组后的 Dataset 会将键错误地命名为value。例如,ds.groupByKey()
超级会员免费看
订阅专栏 解锁全文
1600

被折叠的 条评论
为什么被折叠?



