Spark 执行模型与核心组件解析
1. Spark 执行模型概述
Spark 能够实现给定代码的分布式内存执行。在搭建 Spark 集群或提交 Spark 作业时,涉及以下几个关键组件:
- Spark 驱动(Spark driver) :作为客户端程序,定义了 SparkContext。SparkContext 是任何作业的入口点,它定义了作业的环境、配置和依赖项,并连接到集群管理器以请求资源用于作业的进一步执行。
- 集群管理器/资源管理器/Spark 主节点(Cluster manager/resource manager/Spark master) :负责管理和分配系统资源给 Spark 作业,协调并跟踪集群中活动和死亡的节点。它使驱动提交的作业能够在工作节点(也称为 Spark 工作节点)上执行,并跟踪和显示工作节点上运行的各种作业的状态。
- Spark 工作节点/执行器(Spark worker/executors) :实际执行 Spark 驱动提交的业务逻辑。工作节点由集群管理器动态分配给 Spark 驱动,用于执行提交的作业。
以下是 Spark 的高级组件和主从视图的示意图:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
A(Spark Driver):::process --> B(Cluster Manager):::process
超级会员免费看
订阅专栏 解锁全文
1129

被折叠的 条评论
为什么被折叠?



