Spark系列(四)整体架构分析

Spark架构与依赖详解

最新推荐文章于 2024-12-04 18:04:29 发布

原创最新推荐文章于 2024-12-04 18:04:29 发布 · 495 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Spark 专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了Spark架构中Driver端和Master及Worker的工作流程。解释了Spark如何通过反射创建DriverActor进程并初始化SparkContext，以及如何划分Job为多个Stage进行任务调度。同时，对比了窄依赖和宽依赖的特点，阐述了它们对于数据处理的影响。

架构流程图

说明

Driver端流程说明(Standalone模式)

使用spark-submit提交Spark应用程序Application.
通过反射的方式创建和构造一个DriverActor进程(Driver进程).
SparkContext初始化，构造DAGScheduler和TaskScheduler.
每执行到一个Action操作就会创建一个job,该job会提交到DAGScheduler，划分为多个stage然后为每个stage创建一个TaskSet.
TaskScheduler负责连接Master并向Master注册Application.
TaskScheduler把TaskSet中的每一个task提交到executor上执行(task分配算法).
SparkContext的初始化在所有Executor完成反向注册后才完成，并继续执行提交的应用程序.

Master和Worker流程说明

Master接收到Application注册请求后会使用自己的资源调度算法，在Spark集群的Work上为这个Application启动多个Executor.
Executor启动之后反注册到TaskScheduler.
Executor每次收到一个task都会用TaskRunner来封装task,然后从线程池里取出一个线程执行这个task.
TaskRunner将需执行的算子及函数、拷贝、反序列化然后执行task.

窄依赖
英文名:Narrow Depandency
一个RDD对它的父RDD,只有简单的一对一的依赖关系，也就是说RDD的每个partition仅仅依赖于父RDD中的一个partition.父RDD和子RDD的partition之间的对应关系为一对一

宽依赖
英文名：Shuffle Dependency
本质为Shuffle,每一个父RDD的partition中的数据，都可能会传输一部分到下一个RDD的每一个oartition.该情况下父RDD和子RDD的partition之间是多对一的关系

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。