Spark启动流程

科学的N次方

已于 2022-09-14 15:36:06 修改

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据仓库技术体系文章标签： spark 大数据分布式

于 2022-09-14 12:10:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chenshijie2011/article/details/126748730

数据仓库技术体系专栏收录该内容

141 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark通过Spark-submit提交Application后，在Yarn运行模式下的启动流程。从Driver生成SparkContext，到DAGScheduler和TaskScheduler的创建，再到资源调度算法的运用，详细解析了Executor的启动以及Task的执行过程。当遇到action操作时，Spark会生成job，DAGScheduler划分stage，并由TaskScheduler将Task发送给Executor执行，最终完成任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

Spark-submit 提交 Application
Spark on Yarn运行模式，产生Driver
Driver 会生成一个SparkContext 对象sc , sc 会创建两个对象分别为DAGScheduler 对象和 TaskScheduler 对象
sc 去向ClusterManager 进行注册 , 并申请资源
CM 向Worker 分配资源【资源调度算法】
Worker 启动了executor , executor 中有线程池
executor 向 Driver 反向注册，等待task任务提交
sc 初始化完成，执行接下来的代码遇到一个action ，就会产生一个job 任务
DAGScheduler 会根据RDD 的宽窄依赖关系，划分stage ，给TaskScheduler 发送TaskSet (包含多个task)
TaskScheduler 将Task 序列化后发送给executor
executor 反序列化Task 对象，然后线程池启动Task 任务
执行完成后，sc注销资源

科学的N次方

博客等级

码龄15年

279
原创

1170
点赞

693
收藏

1126
粉丝

关注

私信

热门文章

分类专栏

AIGC 付费 18篇
数据仓库技术体系付费 141篇
mysql 11篇
java 13篇
python 11篇
智慧城市 2篇

展开全部收起

上一篇：: Spark的宽依赖和窄依赖

下一篇：: kafka命令行

最新评论

AI 是否会通过制造大量垃圾信息来污染互联网
silvasaga: 把可能去掉, 是在互联网, 已经产生了大量垃圾, 虚假的信息了
如何使用逆滤波算法deconvwnr恢复图像
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
OpenCV如何使用分水岭算法进行图像分割
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
开源大模型 Llama 3
征途黯然.: The explanation of 开源大模型Llama3 in this article is vivid. The insights are amazing. I have learned a lot, thanks for sharing your efforts!
kylin使用心得
hello wsasd: 这是使用心得？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

科学的N次方 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。