第四课 大数据技术之Hadoop3.x的YARN

本文详细介绍了Hadoop3.x中YARN(Yet Another Resource Negotiator)的资源调度器,包括YARN的基础架构、工作机制、作业提交全过程、调度器和调度算法。讲解了FIFO、容量调度器和公平调度器的特点,并提供了YARN的常用命令和生产环境核心参数配置案例。此外,还探讨了多队列提交、公平调度器配置以及通过Tool接口实现任务动态修改参数的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第四课 大数据技术之Hadoop3.x的YARN

第一节 Yarn资源调度器

1.1 Yarn基础架构

  1. Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。
  2. YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。
    在这里插入图片描述

1.2 YARN的工作机制

在这里插入图片描述

  1. MR程序提交到客户端所在的节点。
  2. YarnRunner向ResourceManager申请一个Application。
  3. RM将该应用程序的资源路径返回给YarnRunner。
  4. 该程序将运行所需资源提交到HDFS上。
  5. 程序资源提交完毕后,申请运行mrAppMaster。
  6. RM将用户的请求初始化成一个Task。
  7. 其中一个NodeManager领取到Task任务。
  8. 该NodeManager创建容器Container,并产生MRAppmaster。
  9. Container从HDFS上拷贝资源到本地。
  10. MRAppmaster向RM 申请运行MapTask资源。
  11. RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
  12. MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
  13. MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
  14. ReduceTask向MapTask获取相应分区的数据。
  15. 程序运行完毕后,MR会向RM申请注销自己。

1.3 作业提交全过程

  1. HDFS、YARN、MapReduce三者关系
    在这里插入图片描述

  2. 作业提交之YARN
    在这里插入图片描述

  3. 作业提交过程之HDFS & MapReduce
    在这里插入图片描述

  4. 作业提交全过程详解(1)作业提交

    • 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。
    • 第2步:Client向RM申请一个作业id。
    • 第3步:RM给Client返回该job资源的提交路径和作业id。
    • 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。
    • 第5步:Client提交完资源后,向RM申请运行MrAppMaster。
  5. 作业提交全过程详解(2)作业初始化

    • 第6步:当RM收到Client的请求后,将该job添加到容量调度器中。
    • 第7步:某一个空闲的NM领取到该Job。
    • 第8步:该NM创建Container,并产生MRAppmaster。
    • 第9步:下载Client提交的资源到本地。
  6. 作业提交全过程详解(3)任务分配

    • 第10步:MrAppMaster向RM申请运行多个MapTask任务资源。
    • 第11步:RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
  7. 作业提交全过程详解(4)任务运行

    • 第12步:MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
    • 第13步:MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
    • 第14步:ReduceTask向MapTask获取相应分区的数据。
    • 第15步:程序运行完毕后,MR会向RM申请注销自己。
  8. 作业提交全过程详解(5)进度和状态更新

    • YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。
  9. 作业提交全过程详解(6)作业完成

    • 除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

1.4 Yarn调度器和调度算法

  1. 目前,Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。Apache Hadoop3.1.3默认的资源调度器是Capacity Scheduler。具体设置详见:yarn-default.xml文件
<property>
    <description>The class to use as the resource scheduler.</description>
    <name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>
  1. CDH框架默认调度器是Fair Scheduler。
  2. 先进先出调度器(FIFO)。FIFO调度器(First In First Out):单队列,根据提交作业的先后顺序,先来先服务。
    • 优点:简单易懂;
    • 缺点:不支持多队列,生产环境很少使用
      在这里插入图片描述
  3. 容量调度器(Capacity Scheduler),Capacity Scheduler是Yahoo开发的多用户调度器
    在这里插入图片描述在这里插入图片描述
  4. 公平调度器(Fair Scheduler)Fair Schedulere是Facebook开发的多用户调度器。
    在这里插入图片描述
  5. 公平调度器缺额
    • 公平调度器设计目标是:在时间尺度上,所有作业获得公平的资源。某一时刻一个作业应获资源和实际获取资源的差距叫“缺额”
    • 调度器会优先为缺额大的作业分配资源
      在这里插入图片描述
  6. 公平调度器队列资源分配方式
    在这里插入图片描述
  7. 公平调度器资源分配算法
    在这里插入图片描述
  8. 公平调度器作业资源分配
    在这里插入图片描述
  9. DRF策略:DRF (Dominant Resource Fairness),我们之前说的资源都是单一标准,例如只考虑内存(也是Yarn默认的情况)。但是很多时候我们资源有很多种,例如内存,CPU,网络带宽等,这样我们很难衡量两个应用应该分配的资源比例。
    • 那么在YARN中,我们用DRF来决定如何调度:假设集群一共有100 CPU和10T内存,而应用A需要(2CPU,300GB),应用B需要(6 CPU,100GB)。则两个应用分别需要A(2%CPU,3%内存)和B(6%CPU,1%内存)的资源,这就意味着A是内存主导的, B是CPU主导的,针对这种情况,我们可以选择DRF策略对不同应用进行不同资源(CPU和内存)的一个不同比例的限制。

1.5 Yarn常用命令

  1. Yarn状态的查询,除了可以在hadoop103:8088页面查看外,还可以通过命令操作。常见的命令操作如下所示:
#  执行WordCount案例,hadoop103:8088页面查
myhadoop.sh start
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

# yarn application查看任务
# 列出所有Application
yarn application -list
# 根据Application状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED
yarn application -list -appStates FINISHED
# Kill掉Application
yarn application -kill application_1612577921195_0001

# yarn logs查看日志
# 查询Application日志:yarn logs -applicationId <ApplicationId>
yarn logs -applicationId application_1612577921195_0001
# 查询Container日志:yarn logs -applicationId <ApplicationId> -containerId <ContainerId> 
yarn logs -applicationId

# yarn applicationattempt查看尝试运行的任务
# 列出所有Application尝试的列表:yarn applicationattempt -list <ApplicationId>
yarn applicationattempt -list application_1612577921195_0001
# 打印ApplicationAttemp状态:yarn applicationattempt -status <ApplicationAttemptId>
yarn applicationattempt -status appattempt_1612577921195_0001_000001

# yarn container查看容器
# 列出所有Container:yarn container -list <ApplicationAttemptId>
yarn container -list appattempt_1612577921195_0001_000001
# 打印Container状态:	yarn container -status <ContainerId>
yarn container -status container_1612577921195_0001_01_000001

# yarn node查看节点状态
# 列出所有节点:yarn node -list -all
yarn node -list -all

# yarn rmadmin更新配置
# 载队列配置:yarn rmadmin -refreshQueues
yarn rmadmin -refreshQueues

# yarn queue查看队列
# 打印队列信息:yarn queue -status <QueueName>
yarn queue -status default

1.6 Yarn生产环境核心参数

在这里插入图片描述

第2节 Yarn案例实操

2.1 Yarn生产环境核心参数配置案例

  1. 注:调整下列参数之前尽量拍摄Linux快照,否则后续的案例,还需要重写准备集群。
  2. 需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程
# 需求分析:
# 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster
# 平均每个节点运行10个 / 3台 ≈ 3个任务(4	3	3)
  1. 修改yarn-site.xml配置参数如下:
<!-- 选择调度器,默认容量 -->
<property>
	<description>The class to use as the resource scheduler.</description>
	<name>yarn.resourcemanager.scheduler.class</name>
	<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

<!-- ResourceManager处理调度器请求的线程数量,默认50;如果提交的任务数大于50,可以增加该值,但是不能超过3台 * 4线程 = 12线程(去除其他应用程序实际不能超过8) -->
<property>
	<description>Number of threads to handle scheduler interface.</description>
	<name>yarn.resourcemanager.scheduler.client.thread-count</name>
	<value>8</value>
</property>

<!-- 是否让yarn自动检测硬件进行配置,默认是false,如果该节点有很多其他应用程序,建议手动配置。如果该节点没有其他应用程序,可以采用自动 -->
<property>
	<description>Enable auto-detection of node capabilities such as
	memory and CPU.
	</description>
	<name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
	<value>false</value>
</property>

<!-- 是否将虚拟核数当作CPU核数,默认是false,采用物理CPU核数 -->
<property>
	<description>Flag to determine if logical processors(such as
	hyperthreads) should be counted as cores. Only applicable on Linux
	when yarn.nodemanager.resource.cpu-vcores is set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true.
	</description>
	<name>yarn.nodemanager.resource.count-logical-processors-as-cores</name>
	<value>false</value>
</property>

<!-- 虚拟核数和物理核数乘数,默认是1.0 -->
<property>
	<description>Multiplier to determine how to convert phyiscal cores to
	vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
	is set to -1(which implies auto-calculate vcores) and
	yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The	number of vcores will be calculated as	number of CPUs * multiplier.
	</description>
	<name>yarn.nodemanager.resource.pcores-vcores-multiplier</name>
	<value>1.0</value>
</property>

<!-- NodeManager使用内存数,默认8G,修改为4G内存 -->
<property>
	<description>Amount of physical memory, in MB, that can be allocated 
	for containers. If set to -1 and
	yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
	automatically calculated(in case of Windows and Linux).
	In other cases, the default is 8192MB.
	</description>
	<name>yarn.nodemanager.resource.memory-mb</name><
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值