37、Spark 集群作业提交与部署指南

Spark 集群作业提交与部署指南

1. Spark 分布式模式组件概述

在分布式模式下运行 Spark 涉及多个组件。在自包含应用模式中,所有组件都在单个 JVM 上运行。以下是运行 Scala 程序时各组件及其功能的简要说明:
- RDD 图处理 :使用 RDD 上的各种操作(如 map、filter、join 等)构建的 RDD 图会传递给有向无环图(DAG)调度器。
- DAG 调度器 :优化流程,将所有 RDD 操作转换为称为阶段(stages)的任务组。通常,洗牌(shuffle)前的所有任务会被包装到一个阶段中。例如,map 或 filter 操作,它们对每个输入产生一个输出,若 RDD 元素上先进行 map 再进行 filter,通常会将它们流水线化形成一个可由单个工作节点执行的任务,还能利用数据局部性优势。与传统 Hadoop MapReduce 相比,Spark 的血统图(lineage graph)优势明显,Hadoop 在每个阶段都会将数据写入磁盘。
- 任务调度器 :接收洗牌分离的阶段,将其拆分为任务并提交给集群管理器。Spark 自带一个简单的集群管理器,也可在流行的集群管理器(如 Mesos 和 YARN)上运行 Spark 应用。
- 多执行器支持 :使用 YARN/Mesos 时,可在同一工作节点上运行多个执行器。此外,YARN 和 Mesos 除了运行 Spark 作业,还能运行非 Spark 作业。在 Spark 独立集群中,Spark 1.4 之前,每个应用在每个工作节点上的执行器数量限制为

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值