20、Spark核心编程之Spark架构原理

最新推荐文章于 2024-04-13 18:49:38 发布

原创最新推荐文章于 2024-04-13 18:49:38 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Spark入坑专栏收录该内容

207 篇文章

订阅专栏

本文详细解析了Spark的架构组成，包括Driver、Master、Worker和Executor的角色与职责，以及它们之间的交互过程。从Driver进程的启动到任务的执行，再到RDD的并行计算，全面阐述了Spark的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Driver
Driver(进程)，我们编写的Spark程序就在Driver上，由Driver进程执行
Master
Master是个进程，主要是负责资源的调度和分配，还有集群的监控等等职责
Worker
Worker是个进程，主要负责有两个，一个是用自己的内存，存储RDD的某个或某些partition，另一个是启动其他进程和线程，对RDD上的partition进行并行的处理和计算
Executor
Task
Executor和Task，其实就是负责执行，对RDD的partition进行并行计算，也就是执行我们对RDD定义的，比如map、flatMap、reduce等算子操作

Spark架构原理.png

Driver进程启动后，会做一些初始化操作，在这个过程中，就会发送请求到Master上，进行Spark应用程序的注册，说白了，就是让master知道，有一个新的Spark应用程序要运行
Master，在收到了Spark应用程序的注册申请之后，会发送请求给Wroker，进行资源的调度和分配，资源分配，就是executer的分配
Wroker收到Master的请求之后，会为Spark应用启动Executor
Executor启动之后，会向Driver进行反注册，这样，Driver就知道，哪些Executor是为它进行服务的了
Driver注册了一些Executor之后，就可以开始正式执行我们的spark应用程序了，首先第一步，就是创建初始RDD读取数据源
HDFS文件内容被读取到多个Worker节点上，形成内存中的分布式数据集，也就是初始RDD
Driver会根据我们对RDD定义的操作，提交一大堆task去Executor上
Executor收到task之后，会启动多个线程来执行task
task就会对RDD的partition数据执行指定的算子操作，形成新的RDD的partition，然后Driver就会向Executor提交新的task

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。