文章目录
1.YARN产生背景
生产中spark作业几乎都是跑在yarn上,不用Standalone,因为集群中可能有MR、Spark、MPI等各类作业,若跑在各自的资源调度框架上,那么整体集群的资源利用率肯定是有问题的。
为了统一作业调度以及资源管理,yarn就诞生了,当前YARN能支持所有主流作业的资源管理和作业调度(batch、交互式、online、strem、in-memory、机器学习、图计算等框架),它是一个操作系统级别的资源管理和调度框架
2.YARN的架构
- 角色:RM、NM、AM、Container。
- 每个juese的职责以及重试(作业挂了)机制这里不过描述
- YARN的通用执行架构流程如下图
3.Spark on Yarn概述
Spark on yarn模式下,spark仅仅是一个客户端而已,生产中只需要在有gateway权限机器上直接解压部署spark即可,非常的方便。