Yarn的资源调度

最新推荐文章于 2025-12-22 16:56:52 发布

原创最新推荐文章于 2025-12-22 16:56:52 发布 · 698 阅读

CC 4.0 BY-SA版权

文章标签：

本文详细阐述了YARN的资源调度机制，包括ResourceManger、NodeManager和ApplicationMaster的角色，以及不同调度策略。同时介绍了Hive的语法树解析、优化过程和配置选项，强调了配置管理的重要性。

分布式资源调度，管理整个hadoop集群的所有服务器资源

ResourceManger
- 负责处理所有计算资源申请
NodeManager
- 负责资源空间（container）的创建
ApplicationMaster
- 管理计算任务，只有产生了mapreduce计算才会运行ApplicationMaster
- 负责具体的资源分配
  - map使用多少
  - reduce使用多少

1-mapreduce提交计算任务给RM（ResourceManager）

2-RM中的applicationmanager负责创建applicationMaster进程

3-applicationMaster和applicationmanager保持通讯

4-applicationMaster找RM中的ResourceScheduler(资源调度器)申请计算需要的资源

5-applicationMaster通知对应的NodeManger创建资源空间container

6-在资源空间中先运行map阶段的计算，先运行reduce阶段的计算

7-map和reduce运行期间会将自身状态信息汇报给applicationMaster

8-计算完成后，applicationMaster通知NodeManger释放资源

9-资源释放后再通知applicationmanager把自身(applicationMaster)关闭释放资源

当有多个计算任务同时请求yarn进行计算，如何分配资源给每个计算任务？

先进先出
- 谁先抢到资源谁使用所有资源
- 资源利用效率低
- 如果遇到一个计算时间较长的任务，保资源占用后。其他的任务就无法计算
容量调度
- 将资源分成多份
  - 不同计算任务使用不同的资源大小
公平调度
- 资源全部给一个计算任务使用，但是当计算任务中的某个map或reduce计算完成后，可以将自身资源释放掉给其他计算任务使用
  - 5个map，其中有两个map计算完成，就可以先释放掉两个资源，给他任务使用，不同等待所有任务计算完成在释放