一起重新开始学大数据-hadoop篇-day48 Yarn

最新推荐文章于 2022-04-12 13:08:43 发布

你的动作太慢了！

最新推荐文章于 2022-04-12 13:08:43 发布

阅读量399

点赞数

分类专栏：大数据从零开始学习大数据文章标签： hadoop big data

本文链接：https://blog.youkuaiyun.com/tiand7/article/details/120110350

版权

大数据从零开始学习同时被 2 个专栏收录

66 篇文章

订阅专栏

大数据

18 篇文章

订阅专栏

一起重新开始学大数据-hadoop篇-day48 Yarn

在这里插入图片描述

Yarn

Yarn概述

yarn：资源调度系统
运算资源：运算程序jar、配置文件、cpu、内存、IO
只负责程序运行所需资源的分配回收等调度任务，与应用程序的内部运作机制完全无关，所以yarn已经成为了通用资源调度平台，许许多多的运算框架都可以借助它来实现资源管理，
such as ：MR、spark、storm、TEZ、Flink…

yarn核心组件功能

YARN Client

YARN Client提交Application到RM，它会首先创建一个Application上下文对象，并设置AM必需的资源请求信息，然后提交到RM。YARN Client也可以与RM通信，获取到一个已经提交并运行的Application的状态信息等。

ResourceManager（RM）

RM是YARN集群的Master，负责管理整个集群的资源和资源分配。RM作为集群资源的管理和调度的角色，如果存在单点故障，则整个集群的资源都无法使用。在2.4.0版本才新增了RM HA的特性，这样就增加了RM的可用性。

NodeManager（NM）

NM是YARN集群的Slave，是集群中实际拥有实际资源的工作节点。我们提交Job以后，会将组成Job的多个Task调度到对应的NM上进行执行。Hadoop集群中，为了获得分布式计算中的Locality特性，会将DN和NM在同一个节点上运行，这样对应的HDFS上的Block可能就在本地，而无需在网络间进行数据的传输。

Container

Container是YARN集群中资源的抽象，将NM上的资源进行量化，根据需要组装成一个个Container，然后服务于已授权资源的计算任务。计算任务在完成计算后，系统会回收资源，以供后续计算任务申请使用。Container包含两种资源：内存和CPU，后续Hadoop版本可能会增加硬盘、网络等资源。

ApplicationMaster（AM）

AM主要管理和监控部署在YARN集群上的Application，以MapReduce为例，MapReduce Application是一个用来处理MapReduce计算的服务框架程序，为用户编写的MapReduce程序提供运行时支持。通常我们在编写的一个MapReduce程序可能包含多个Map Task或Reduce Task，而各个Task的运行管理与监控都是由这个MapReduceApplication来负责，比如运行Task的资源申请，由AM向RM申请；启动/停止NM上某Task的对应的Container，由AM向NM请求来完成。

查看MapReduce任务的输出日志

historyserver进程作用

把之前本来散落在nodemanager节点上的日志统计收集到hdfs上的指定目录中

启动historyserver

执行sbin/mr-jobhistory-daemon.sh start historyserver
通过master:19888观察

application id

获取application id 通过执行
yarn logs applicationId (application id )

MapReduce在yarn上的执行过程

图示部分关键字分析
什么是YarnChild：
MrAppMaster运行程序时向resouce manager请求的maptask、reduceTask，也就是运行程序的容器，其实它就是一个运行程序的进程
FIFO Scheduler
FIFO是Hadoop设计之初提供的一个最简单的调度机制：即先来先服务。所有应用程序被统一提交到一个队里中，Hadoop按照提交顺序依次运行这些作业。只有等先来的应用程序资源满足后，再开始为下一个应用程序进行调度运行和分配资源。
优点：
原理是和实现简单。也不需要任何单独的配置
缺点：
1，无法提供QoS，只能对所有的任务按照同一优先级处理。
2，无法适应多租户资源管理。先来的大应用程序把集群资源占满，导致其他用户的程序无法得到及时执行。
3，应用程序并发运行程度低。

Yarn资源调度策略(转)

YARN 资源调度器是直接从MR基础上修改而来，它提供了三种可用资源调度器，分别是FIFO Scheduler、Yahoo!的Capacity Scheduler 和Fackbook 的 Fair Scheduler，它们的原理和细节基本上与MR的三种调度器一致。都是层级队列方式组织资源的。这种方式符合公司或部门组织架构，有利于资源在不同资源间分配和共享，进而提高集群资源利用率。