【Spark基础】-- 理解 Spark shuffle

本文介绍了Spark shuffle的基本概念,它是如何在Stage之间发生的,并详细讨论了Spark的三种shuffle实现。在Spark的执行模型中,shuffle通常发生在两个Stage之间,DAGScheduler根据逻辑计划生成物理执行计划,将宽依赖的RDD划分为不同的Stage。每个Stage由Task组成,ShuffleMapStage的输出文件由分区函数分区,供下游Stage使用。最后,文章提到了Spark的三种shuffle实现和Stage划分的相关知识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

前言

1、什么是 Spark shuffle?

2、Spark 的三种 shuffle 实现

3、参考


前言

      以前,Spark 有3种不同类型的 shuffle 实现。每种实现方式都有他们自己的优缺点。在我们理解 Spark shuffle 之前,需要先熟悉 Spark 的 execution model 和一些基础概念,如:MapReduce、逻辑计划、物理计划、RDD、Partitions、Narrow dependency、wide dependency、Stage、tasks、ShuffleMapStage 和 ResultStage。

1、什么是 Spark shuffle?

      要理解 shuffle 是在拿个过程发生的,我们需要回顾一下 Spark 集群是如何进行工作调度的:一般而言, shuffle 会发生在每两个 stage 之间。当 DAGSchduler 依据我们的逻辑计划(RDD Objects,即客户端编写的代码,在Spark Driver 端生成逻辑计划)去生成物理执行计划时,它会将所有通过宽窄依赖链接的 RDD 合并到一个 Stage中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oo寻梦in记

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值