【Spark基础】-- 理解 Spark shuffle

oo寻梦in记

已于 2023-12-06 16:40:26 修改

阅读量427

点赞数 7

CC 4.0 BY-SA版权

分类专栏： Apache Spark 文章标签： spark 大数据分布式

于 2023-12-04 15:29:19 首次发布

本文链接：https://blog.youkuaiyun.com/high2011/article/details/134777554

Apache Spark 专栏收录该内容

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark shuffle的基本概念，它是如何在Stage之间发生的，并详细讨论了Spark的三种shuffle实现。在Spark的执行模型中，shuffle通常发生在两个Stage之间，DAGScheduler根据逻辑计划生成物理执行计划，将宽依赖的RDD划分为不同的Stage。每个Stage由Task组成，ShuffleMapStage的输出文件由分区函数分区，供下游Stage使用。最后，文章提到了Spark的三种shuffle实现和Stage划分的相关知识。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

1、什么是 Spark shuffle？

2、Spark 的三种 shuffle 实现

3、参考

前言

以前，Spark 有3种不同类型的 shuffle 实现。每种实现方式都有他们自己的优缺点。在我们理解 Spark shuffle 之前，需要先熟悉 Spark 的 execution model 和一些基础概念，如：MapReduce、逻辑计划、物理计划、RDD、Partitions、Narrow dependency、wide dependency、Stage、tasks、ShuffleMapStage 和 ResultStage。

1、什么是 Spark shuffle？

要理解 shuffle 是在拿个过程发生的，我们需要回顾一下 Spark 集群是如何进行工作调度的：一般而言， shuffle 会发生在每两个 stage 之间。当 DAGSchduler 依据我们的逻辑计划(RDD Objects，即客户端编写的代码，在Spark Driver 端生成逻辑计划)去生成物理执行计划时，它会将所有通过宽窄依赖链接的 RDD 合并到一个 Stage中。