Spark运行机制之DAG原理

最新推荐文章于 2025-06-14 19:27:42 发布

原创

最新推荐文章于 2025-06-14 19:27:42 发布 · 4.5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文深入探讨Spark的运行机制，从提交、driver、DAGScheduler、application、job、stage及其内部逻辑等方面展开，解答了关于Spark中job划分、stage类型、task数量等疑问，并揭示了shuffle操作的实现和DAG的规划。通过对Spark源码的阅读，作者对Spark的工作原理有了更清晰的理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习过程中，看过很多讲作业提交和任务调度的原理，包括中英文版本，知道个大概，但有些细的东西总感觉不清晰，

比如drvier程序具体是什么？

一个application有多个job，每个action动作会触发一个job，为什么？

一个job内有多个stage，如何划分？stage有不同类型么？

一个stage内的task数量如何确定？

task具体是什么？

什么是shuffle map任务？shuffle操作具体怎么实现的？

什么是result map任务？

数据集存储中内存中，具体哪些数据在内存中，哪些不在内存中？

带着如上诸多疑问，尝试着去阅读spark的源码。接触scala不久，其语法感觉还是有点不好理解，很多语法细节不明了，忽略之，直接看核心逻辑。1天下来，虽然只看了一小部分，但明显的有豁然开朗的感觉，一下子明白了很多原理，明白了很多原来如此。现将了解到了记录下来，加深记忆，同时便于以后复习，或者纠正。

提交

spark-submit命令其实是一个shell脚本，它的作用主要包括加载和设置环境变量，启动main主类，即启动org.apache.

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。