Yarn的总结

本文详细介绍了YARN(Yet Another Resource Negotiator)的架构设计,包括ResourceManager、NodeManager、ApplicationMaster等组件的功能与交互,以及YARN的资源管理机制。深入解析了YARN的工作流程,从应用程序提交到资源分配,再到任务执行与监控的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.YARN架构设计


ResourceManager(RM): 负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申
请的资源请求分配相应的空闲Container。主要由两个组件构成:
调度器和应用程序管理器
调度器(Scheduler):调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系
统中的资源分配给各个正在运行的应用程序。调度器仅根据各个应用程序的资源需求进行资源分配,而
资源分配单位是
Container
,从而限定每个任务使用的资源量。 Shceduler不负责监控或者跟踪应用程序的状态,也不负责任务因为各种原因而
需要的重启(由ApplicationMaster负责)。总之,调度器根据应用程序的资源要求,以及集群机器的资源情况,为应用程序
分配封装在Container中的资源。
调度器是可插拔的,例如CapacityScheduler、 FairScheduler。
应用程序管理器(Applications Manager):应用程序管理器负责管理整个系统中所有应用程序,包括应用程序提交、与调度器
协商资源以启动AM、监控AM运行状态并在失败时重新启动等,跟踪分给的Container的进度、状态也是其职责。
NodeManager (NM): NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的
运行状态;同时会接收并处理来自AM的Container 启动/停止等请求。
ApplicationMaster (AM):用户提交的应用程序均包含一个AM,负责应用的监控,跟踪应用执行状态,重启失败任务等。
ApplicationMaster是应用框架,它负责向ResourceManager协调资源,并且与NodeManager协同工作完成Task的执行和监控。
MapReduce就是原生支持的一种框架,可以在YARN上运行Mapreduce作业。有很多分布式应用都开发了对应的应用程序框架,用
于在YARN上运行任务,例如Spark, Storm等。如果需要,我们也可以自己写一个符合规范的YARN application。

Container:是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、 CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container 表示的。 YARN会为每个任务分配一个Container且该任务只能使用该Container中描述的资源。
2. 进程:
ResourceManager
NodeManager

3.常用命令

yarn application – list
yarn application – kill -applicationId <application ID>

yarn logs -applicationId <application ID>

4.yarn的工作流程 wps56F6.tmp

 
1、用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster命令、用户程序等
2、resourceManager为该应用程序分配第一个container,并与对应的nodeManager通信,要求它在这个container中启动应用程序的ApplicationMaster
3、ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManager查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复4~7
4、ApplicationMaster采用轮询的方式通过RPC协议向resourceManager申请和领取资源
5、一旦ApplicationMaster申请到资源后,便与对应的Nodemanager通信,要求它启动任务。
6、NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务
7、各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态
8、应用程序运行完成后,ApplicationMaster向resourceManager注销并关闭自己

5.yarn的内存管理

yarn.nodemanager.resource.memory-mb   该节点上yarn可以使用的物理内存总量

yarn.scheduler.minimum-allocation-mb    单个任务可以使用最小物理内存量,默认1024m

yarn.scheduler.maximum-allocation-mb  单个任务可以申请的最多的内存量,默认8192m

yarn.scheduler.increment-allocation-mb: 2048

yarn.nodemanager.vmem-pmem-ratio  任务使用1m物理内存最多可以使用虚拟内存量,默认是2.1

yarn.nodemanager.pmem-check-enabled  是否启用一个线程检查每个任务证使用的物理内存量,如果任务超出了分配值,则直接将其kill,默认是true

yarn.nodemanager.vmem-check-enabled  是否启用一个线程检查每个任务证使用的虚拟内存量,如果任务超出了分配值,则直接将其kill,默认是true。

6.yarn cpu的管理

不同节点cpu性能可能不同,每个cpu具有计算能力也是不一样的,比如,某个物理cpu计算能力可能是另外一个物理cpu的2倍,这时候,你可以通过为第一个物理cpu多配置几个虚拟cpu弥补这种差异。用户提交作业时,可以指定每个任务需要的虚拟cpu个数。在yarn中,cpu相关配置参数如下:

yarn.nodemanager.resource.cpu-vcores

表示该节点上yarn可使用的虚拟cpu个数,默认是8个,注意,目前推荐将该值为与物理cpu核数相同。如果你的节点cpu合数不够8个,则需要调减小这个值,而yarn不会智能的探测节点物理cpu总数。

yarn.scheduler.minimum-allocation-vcores

单个任务可申请最小cpu个数,默认1,如果一个任务申请的cpu个数少于该数,则该对应值被修改为这个数

yarn.scheduler.maximum-allocation-vcores

单个任务可以申请最多虚拟cpu个数,默认是32.

vcore : 虚拟核   1个物理核为2个虚拟核

SWAP

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31496956/viewspace-2199467/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31496956/viewspace-2199467/

<think>嗯,用户想了解Yarn包管理器的介绍和使用方法。首先,我需要回忆一下Yarn的基本信息。Yarn是由Facebook、Google等公司合作开发的,主要是为了解决npm早期版本的一些问题,比如依赖安装速度慢和版本不一致。然后,用户提到参考了站内的两个引用,里面提到了Yarn的工作空间和monorepo管理,还有和npm的区别,以及安装配置指南。 用户的问题分为两部分:介绍和使用方法。我需要先介绍Yarn是什么,它的优势,和npm的区别。然后详细说明使用方法,包括安装、初始化项目、添加依赖、安装依赖、运行脚本、工作空间这些方面。根据引用[1]和[2],要强调Yarn的效率和一致性,特别是工作空间的功能,这是用户可能感兴趣的点。 接下来,我需要检查是否有遗漏的要点。比如,Yarn的离线模式、版本锁定文件yarn.lock,这些也是关键点。另外,使用方法部分需要具体命令示例,比如yarn init、yarn add等,让用户能直接操作。工作空间的配置步骤也很重要,引用[1]里提到了,所以必须包含。 可能用户是开发者,正在考虑是否从npm切换到Yarn,或者开始新项目选择包管理工具。因此,需要对比Yarn和npm的优势,帮助用户做决定。同时,用户可能关心实际使用中的常见操作,比如安装依赖、管理依赖版本,以及如何利用工作空间管理多个包。 需要确保回答结构清晰,分点列出,符合用户要求的“结构清晰,帮助逐步解决问题”。同时,根据系统指令,数学公式要用$...$,但这里可能涉及代码块,所以要注意代码格式的正确性。不过问题里没有数学表达式,所以可能用不上,但生成的示例中的代码需要用正确格式。 最后,生成相关问题,可能需要考虑用户接下来会问什么,比如性能优化、工作空间详细配置、与npm的迁移等。根据引用内容,相关问题可以包括Yarn与npm的具体差异、工作空间的使用场景、如何确保依赖一致性等。 总结回答结构:先介绍Yarn,包括背景、优势和与npm的区别。然后使用方法分步骤说明,包括安装、项目初始化、依赖管理、脚本运行、工作空间。最后相关问题部分要覆盖这些方面,帮助用户深入了解更多内容。</think>### Yarn 包管理器介绍 Yarn 是由 Facebook、Google 等公司联合开发的 JavaScript 包管理工具,旨在解决早期 NPM 的依赖安装速度慢、版本管理不一致等问题。其核心优势包括: 1. **依赖版本锁定**:通过 `yarn.lock` 文件确保依赖版本一致性[^2]; 2. **并行安装**:加快依赖下载与安装速度; 3. **离线模式**:支持从本地缓存安装依赖; 4. **工作空间(Workspaces)**:支持 monorepo 项目的多包管理[^1]。 #### Yarn 与 NPM 的区别 | 特性 | Yarn | NPM | |--------------------|---------------------------|----------------------| | 安装速度 | 并行下载更快 | 早期版本较慢 | | 版本锁定 | 默认生成 `yarn.lock` | 需手动生成 `package-lock.json` | | 安全性 | 依赖校验机制更严格 | 依赖校验较弱 | --- ### Yarn 使用方法 #### 1. 安装 Yarn 通过 NPM 全局安装: ```bash npm install -g yarn ``` #### 2. 初始化项目 ```bash yarn init # 生成 package.json ``` #### 3. 添加依赖 ```bash yarn add [package] # 添加生产依赖 yarn add [package]@[version] # 指定版本 yarn add -D [package] # 添加开发依赖 ``` #### 4. 安装所有依赖 ```bash yarn install # 或简写为 yarn ``` #### 5. 运行脚本 ```bash yarn run [script-name] # 执行 package.json 中定义的脚本 ``` #### 6. 使用工作空间(Monorepo) 1. 在根目录 `package.json` 中启用工作空间: ```json { "private": true, "workspaces": ["packages/*"] } ``` 2. 在子包目录中分别管理依赖,Yarn 会自动提升公共依赖到根目录[^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值