14、Spark 执行模型与核心组件解析

Spark 执行模型与核心组件解析

1. Spark 执行模型概述

Spark 能够实现给定代码的分布式内存执行。在搭建 Spark 集群或提交 Spark 作业时,涉及以下几个关键组件:
- Spark 驱动(Spark driver) :作为客户端程序,定义了 SparkContext。SparkContext 是任何作业的入口点,它定义了作业的环境、配置和依赖项,并连接到集群管理器以请求资源用于作业的进一步执行。
- 集群管理器/资源管理器/Spark 主节点(Cluster manager/resource manager/Spark master) :负责管理和分配系统资源给 Spark 作业,协调并跟踪集群中活动和死亡的节点。它使驱动提交的作业能够在工作节点(也称为 Spark 工作节点)上执行,并跟踪和显示工作节点上运行的各种作业的状态。
- Spark 工作节点/执行器(Spark worker/executors) :实际执行 Spark 驱动提交的业务逻辑。工作节点由集群管理器动态分配给 Spark 驱动,用于执行提交的作业。

以下是 Spark 的高级组件和主从视图的示意图:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px

    A(Spark Driver):::process --> B(Cluster Manager):::process
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值