Hadoop----yarn篇

本文详细介绍了Hadoop YARN的工作机制,包括Yarn的组成:Resource Manager、Node Manager、APP Master和Container。Yarn作为分布式操作系统的角色,负责资源调度,而MapReduce等程序在其上运行。在工作流程中,Yarn Runner向RM申请资源并提交任务,APP Master负责应用程序的运行,Container承载任务执行。此外,文章还提到了三种调度器:FIFO、容量调度器和公平调度器,其中,默认配置为容量调度器。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里写自定义目录标题

Yarn概述

  • Yarn ,负责hadoop中的资源调度,相当于一个分布式的操作系统,mapreduce等程序运行于yarn上

Yarn组成

  • 1.RM(Resource Manager)

    处理客户端请求
    监控各个node manager的资源
    开启AM
    分配和调度资源

    注:RM只负责资源的管理和发放,不负责程序的运行

  • 2. NM(Node Manager)

    管理单个服务器上的资源并向RM汇报

  • 3. AM(APP Master)
    有任务时才开启,任务结束后关闭
    负责整个应用程序的运行(资源申请及任务分配)

  • 4. Container
    资源容器,RM以container形式发放资源(封装了内存、CPU等资源)
    只有在运行程序时存在

Yarn工作机制

在这里插入图片描述

  • –1. 客户端提交job时首先连接集群,同时会创建Yarn Runner
  • –2. Yarn Runner会向RM申请一个Application
  • –3. RM收到请求后返回资源提交路径stag和JobId
  • –4.Yarn Runner将运行Job所需的资源提交到stag和JobId拼接后的路径下
    提交资源包括(程序jar包,切片信息,配置文件)
  • –5. 提交之后,Yarn Runner向RM申请运行APP Master
  • –6. RM收到请求后先放到调度队列中,当于空余资源时,将该任务派发给其中某个有资源的NM
  • –7. NM收到任务后就会创建一个Container用来运行APP Master
  • –8. APPMaster运行起来后先将job运行所需的资源从hdfs下载到本地
  • –9. 然后根据切片信息向RM申请运行相应的Map Task的资源
  • –10. RM收到请求后先放到调度队列中,当于空余资源时,将该任务派发给下面的NM
  • –11. NM收到任务后,创建相应个数的Container来运行Map Task(每当一个MapTask运行完,所在的container资源立马被释放)
  • –12. 当所有Map Task运行完成之后,APP Master向RM申请运行相应Reduce Task的资源
  • –13. Reduce Task从Map Task获取相应的分区数据进行处理,完成之后释放资源
  • –14. 当所有的Reduce Task运行完之后APP Master会向RM注销自己
  • –15. 最后客户端会将hdfs资源提交路径下的数据删除

调度器

分类
先进先出(FIFO)、容量调度器、公平调度器

–注:默认的是容量调度器

FIFO
–按照提交顺序依次调度运行

容量调度器

可以理解为多个FIFO队列,每个队列设定一定的资源占比和使用上限

公平调度器

也是多队列,但是每个队列中的任务平分资源,并发执行,每个任务都可设最小资源值

### 回答1: Hadoop YARN (Yet Another Resource Negotiator) 是一个基于Hadoop的集群资源管理系统。Hadoop YARN Client是Hadoop YARN中的一部分,它是用来与YARN ResourceManager通信的客户端工具。 Hadoop YARN Client的主要功能是向YARN ResourceManager提交应用程序并获取集群的资源来执行这些应用程序。当一个应用程序需要在Hadoop集群上运行时,开发人员可以使用Hadoop YARN Client来编写和提交应用程序,然后该客户端将应用程序的相关信息发送给YARN ResourceManager。这些应用程序可以是MapReduce程序,也可以是其他类型的应用程序,例如Spark、Flink等。 使用Hadoop YARN Client,开发人员可以指定应用程序所需的计算资源和内存等配置参数。此外,Hadoop YARN Client还可以跟踪应用程序的状态,并显示有关应用程序执行进度和状态的相关信息。如果发生错误或异常,开发人员可以使用Hadoop YARN Client来取消或终止应用程序的执行。 Hadoop YARN Client利用YARN ResourceManager的资源调度功能,将应用程序提交给ResourceManager后,ResourceManager将根据集群的资源情况来分配相应的资源给该应用程序。此外,Hadoop YARN Client还可以与NodeManager通信,以获取有关执行任务的节点的信息,并监视应用程序的进度。 总的来说,Hadoop YARN Client提供了一个方便的方式来提交和管理应用程序的执行,并与YARN ResourceManager和NodeManager进行通信,以获取资源和监视应用程序的状态。通过使用Hadoop YARN Client,开发人员可以更容易地在Hadoop集群上运行和管理各种类型的应用程序。 ### 回答2: Hadoop YARN客户端是Hadoop生态系统中的一个关键组件,用于与YARN资源管理器进行通信,并提交、监控和管理MapReduce作业或其他分布式计算任务。YARN(Yet Another Resource Negotiator)是Hadoop的资源管理器,负责集群资源的分配和任务的调度。 Hadoop YARN客户端的主要功能包括作业的提交和监控。当用户想要运行一个MapReduce作业时,他们可以使用YARN客户端来提交该作业。YARN客户端将作业的执行所需要的资源需求和其他相关信息发送给YARN资源管理器。资源管理器根据集群中可用的资源和调度策略来分配资源,并将作业的任务分配给相应的节点上的容器来执行。 同时,YARN客户端还可以监控作业的执行进度和状态。用户可以通过YARN客户端查询和获取作业的相关信息,如已完成的任务数、失败的任务数、运行时间等。这些信息对于实时监控作业的运行状况以及进行作业调优非常有帮助。 此外,YARN客户端还可以用于管理作业的生命周期。用户可以使用YARN客户端来杀死正在运行的作业或取消已提交但未开始执行的作业。这对于当用户不再需要某个作业时或出现意外情况需要中断作业时非常有用。 总之,Hadoop YARN客户端是Hadoop生态系统中负责与YARN资源管理器通信的关键组件。它提供了作业的提交、监控和管理的功能,帮助用户实现高效的分布式计算任务。 ### 回答3: Hadoop-YARN-Client是Hadoop生态系统中的一个组件,它是Hadoop资源管理器(YARN)的客户端库。YARNHadoop的第二代资源管理系统,它的目的是为集群中的各个工作负载提供资源调度和管理服务。 Hadoop-YARN-Client的作用是允许用户通过编程方式与YARN交互,以便向集群提交应用程序,并监控和管理它们的执行。通过Hadoop-YARN-Client,用户可以以编程方式与YARN的应用程序客户端接口(API)进行交互,完成下列任务: 1. 提交应用程序:用户可以使用Hadoop-YARN-Client将一个应用程序提交给YARN。提交应用程序时,需要指定应用程序的类型、优先级、所需资源等信息,并将应用程序的代码和依赖项打包成一个本地或分布式的Jar文件。 2. 监控应用程序:一旦应用程序被提交到YARN,用户可以使用Hadoop-YARN-Client监控应用程序的执行情况。用户可以查询应用程序的状态、进度和资源使用情况等信息。 3. 管理应用程序:用户可以使用Hadoop-YARN-Client管理应用程序的执行。例如,用户可以请求YARN增加或减少分配给应用程序的资源,或者终止应用程序的执行。 总之,Hadoop-YARN-Client是Hadoop生态系统中与YARN交互的关键组件之一。它为用户提供了一种便捷的方式来提交、监控和管理在YARN上执行的应用程序,让用户能够更好地利用集群资源和进行任务调度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值