DataSet/DataFrame性能比RDD高？

最新推荐文章于 2024-12-14 00:00:00 发布

原创最新推荐文章于 2024-12-14 00:00:00 发布 · 1.5k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#DataFrame性能比RDD高吗 #DataFrame #Dataset #RDD #性能比较

Spark知识大杂烩专栏收录该内容

68 篇文章

订阅专栏

本文深入探讨了Spark DataFrame相较于RDD的性能优势，详细分析了DataFrame如何通过优化执行计划提高查询效率，尤其是在join和filter操作中，展示了Spark Catalyst Optimizer如何实现成本更低的执行策略。

前言

我们都知道Dataset/DataFrame的运行流程如下：

Parse SQL -> Analyze Logical Plan -> Optimize Logical Plan -> 
Generate Physical Plan -> Prepareed Spark Plan -> Execute SQL -> Generate RDD

流程图如下：
在这里插入图片描述
也就是说DataFrame经过一系列的解析最后还是转为了RDD。
可为什么说性能比RDD高呢？？？？？？

直接给出原因

一句话总结：

优化的执行计划：查询计划通过Spark catalyst optimiser进行优化

执行图：
在这里插入图片描述
举个例子说明：

users.join(events,users("id") === events("uid"))
.filter(events("date") > "2019-10-30")

在这里插入图片描述
为了说明查询优化，我们来看上图展示的人口数据分析的示例。图中构造了两个DataFrame，将它们join之后又做了一次filter操作。如果原封不动地执行这个执行计划，最终的执行效率是不高的。因为join是一个代价较大的操作，也可能会产生一个较大的数据集。如果我们能将filter下推到 join下方，先对DataFrame进行过滤，再join过滤后的较小的结果集，便可以有效缩短执行时间。而Spark SQL的查询优化器正是这样做的。简而言之，逻辑查询计划优化就是一个利用基于关系代数的等价变换，将高成本的操作替换为低成本操作的过程。