Spark问题笔记4

最新推荐文章于 2025-04-21 23:05:27 发布

feige1990

最新推荐文章于 2025-04-21 23:05:27 发布

阅读量457

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/feige1990/article/details/48177541

Spark 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了Spark中RDD的基本操作及Stage的划分原则。详细解释了Transformation与Action的区别，并阐述了如何通过Stage进行算子融合来提升任务处理效率。此外，还讨论了宽依赖和窄依赖的概念及其对Stage划分的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对RDD的操作，体现在对算子的操作

算子分两类：Transformation、Action

运行调度：

->DAG->Stage->Task

DAGSchedule遇到Action时会回溯，当遇到shuffle时会产生新的Stage，从而产生Stage；

使用TaskSchedule对Stage1进行调度，把stage1 task任务委派到Worker上。

由于stage1 - stage2有个Shuffle，对stage1进行shuffleWriter

在worker上启动shuffleReader读取stage1的shuffleWriter读取然后启动stage2

宽依赖和宅依赖：发生在RDD与RDD之间

本质区别为RDD与RDD之间的Partition是否为一一对应的关系。

Stage的好处是可以进行算子融合，做流水处理，提高任务处理效率。

def compute(split: Partition, context: TaskContext): Iterator[T]

protected def getPartitions: Array[Partition]

窄依赖：map、filter、unio、co-partition下的join

宽依赖：join、groupBy等

Stage有两种：

ShuffleMapStage
这种Stage是以Shuffle为输出边界，其输入边界可以是从外部获取数据，也可以是另一个ShuffleMapStage的输出，其输出可以。是另一个Stage的开始ShuffleMapStage的最后Task就是ShuffleMapTask。在一个Job里可能有该类型的Stage，也可以能没有该类型Stage。
ResultStage
这种Stage是直接输出结果。其输入边界可以是从外部获取数据，也可以是另一个ShuffleMapStage的输出。ResultStage的最后Task就是ResultTask。在一个Job里必定有该类型Stage。一个Job含有一个或多个Stage，但至少含有一个ResultStage。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。