通俗易懂理解spark的DAG

SunnyRivers

已于 2023-07-11 09:27:35 修改

阅读量1.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark最佳实战与性能优化文章标签： spark 大数据 DAG

于 2023-05-15 14:47:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Android_xue/article/details/130679269

Spark最佳实战与性能优化专栏收录该内容

38 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

Spark的DAG（有向无环图）是其执行模型的关键，将作业分解为Stage和Task实现并行处理。DAG调度器负责转换操作为DAG，通过血缘关系实现容错。理解并优化DAG有助于提升Spark作业的性能和容错能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DAG简介

百度百科对DAG的解释用一句话概括：无回路有向图。

Spark的DAG（有向无环图）是一个基本概念，在Spark执行模型中起着至关重要的作用。DAG是“定向的”，因为操作是按特定顺序执行的，而“非循环的”是因为执行计划中没有循环或循环。这意味着每个阶段都取决于前一阶段的完成情况，并且一个阶段中的每个任务都可以独立运行。
在这里插入图片描述

在高层，DAG表示Spark作业的逻辑执行计划。提交Spark应用程序时，Spark会将应用程序代码中指定的高级操作（如transformation和action）转换为stage和task的DAG。

DAG在Spark中的重要性

Spark中对DAG的需求源于这样一个事实，即Spark是一个分布式计算框架，这意味着它被设计为在多台服务器组成的集群上运行。为了在集群中有效地执行Spark作业

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

SunnyRivers 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。