点击上方蓝色字体,选择“设为星标”
回复”面试“获取更多惊喜
本文已加入「大数据成神之路PDF版」提供下载。
后台回复:「PDF」 即可获取。
更多PDF下载可以参考:《重磅,大数据成神之路PDF可以分类下载啦!》
Spark重点难点系列:
前言
Spark3.0版本的发布已经很长时间了,3.0版本增加了很多令人兴奋的新特性。
包括动态分区剪裁(Dynamic Partition Pruning)、自适应查询执行(Adaptive Query Execution)、加速器感知调度(Accelerator-aware Scheduling)、支持 Catalog 的数据源API(Data Source API with Catalog Supports)、SparkR 中的向量化(Vectorization in SparkR)、支持 Hadoop 3/JDK 11/Scala 2.12 等等。
这里面最重要的两个特性分别是:
AQE(Adaptive Query Execution,自适应查询执行)
DPP(Dynamic Partition Pruning,动态分区剪裁)
我们分别就分别就这两个特性进行一下讲解。