一、查看yarn日志的方式
1、如果是Apache搭建的集群
1)可以通过ResourceManager角色服务器的IP来访问(http://hadoop101:8088/cluster)
2)也可以通过查看JobHistory历史服务器角色所在IP来访问 http://hadoop100:19888/jobhistory(必须先搭建好启动了)
2、如果你是CDH或者HDP集群,那就直接去到管理界面选择相关组件查看就好了(会自动跳转到如上访问地址)
二、ResourceManager UI界面
1、界面分为两部分左边菜单框右边显示框
2、菜单框:Cluster和Tool两大菜单
1)Cluster包含菜单:
About:显示集群的整体概述
可以通过Yar REST API 在代码中也可以获取到集群的About信息 hadoop101:8088/ws/v1/cluster/metrics
About主要包含三块(Cluster Metrics、Scheduler Metrics、Cluster overview)
Cluster Metrics:集群当前度量指标情况
Apps Submitted:应用作业的提交个数
Apps Pending:在所有队列总等待执行的作业个数
Apps Running:正在运行的作业个数
Apps Completed:已经运行完成的作业个数
Containers Running:当前正在运行的容器个数
Memory Used:集群中所有任务所耗用的内存
Memory Total:yarn所能占用的最大内存(所有NodeManager管理的内存总和)
Memory Reserved:预留内存,防止部分应用因为需要等待少部分内存而无限期等待情况
VCores Used:正在运行作业所耗用的总虚拟CPU
VCores Total:yarn所能占用的最大虚拟CPU
Active Nodes:当前集群存活的节点个数,(其实就是NodeManager的个数)
Decommissioned Nodes:集群退役的节点个数
Lost Nodes:集群丢失的节点个数
Unhealthy Nodes:集群运行状况不良的节点个数
Rebooted Nodes:集群重启的节点个数
Scheduler Metrics:集群调度信息
Scheduler Type:集群使用的调度器类型(Apache默认Capacity CDH默认是Fair)
Scheduling Resource Type:调度器资源类型内存
Minimum Allocation:一个作业的最小内存为1G和1cpu核
Maximum Allocation:一个作业的最大内存为8G和8cpu核
Cluster overview:集群整体信息
Cluster ID: 集群ID
ResourceManager state: 集群ResourceManager的运行状态(STARTED表示正在运行)
ResourceManager HA state: 只是表示ResourceManager的高可用接口正常,不表示ResourceManager已经是高可用了
ResourceManager HA zookeeper connection state: 表示ResourceManager的高可不可用
ResourceManager RMStateStore: 集群ResourceManager的状态保存和还原接口类,参考链接
(https://www.cnblogs.com/shenh062326/p/3562199.html)
ResourceManager started on: 集群ResourceManager的启动时间
ResourceManager version: 集群ResourceManager的版本
Hadoop version: 集群hadoop的版本
Nodes:集群各个节点的概述
可以通过YARN REST API 获取到集群的Node信息 hadoop101:8088/ws/v1/cluster/node
Node Lables:节点标签,通过对节点打标签我们可以控制任务运行在特定的标签节点上
Rack:机架
Node State:节点状态信息,Running表示运行正常
Node Address: NodeManager的ip地址和访问端口
Node HTTP Address:NodeManager的web应用HTTP访问地址(可以点进去查看该节点的信息,后续讲解)
Last health-update:节点最近心跳时间
Health-report:心跳报告的存储路径
Containers:节点内正在运行的Containers个数
Mem Used:节点已用内存
Mem Avail:节点可用的总内存(默认是8G yarn.nodemanager.resource.memory-mb配置)
Vcore Used:节点正在运行作业所占用的CPU核数
Vcores Avail:节点可用的总虚拟CPU核数(yarn.nodemanager.resource.cpu-vcores配置)
Version:版本信息
Node Labels:节点标签
Applications:集群历史和当前运行的job概述,Applications下面有job在Yarn的各种状态(NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)
各种状态显示的界面都是一样的,如上图就用已完成的作业来描述相关信息
ID:当前应用的ID
User:提交应用的用户
Name:作业内容(sql语句)
Application Type:计算引擎类型(mapreduce、tez、spark)
Queue:应用所提交的队列
Start Time:应用执行的开始时间
Finish Time:应用执行完成时间
State:当前应用的状态
FinalStatus:当前应用的最终状态
Progress:运行时候显示的进度条
Tracking UI:历史追踪连接(点进去能够显示当前应用的详细信息,后续讲解)
Blacklisted Nodes:黑名单节点
3、Scheduler:Yarn的调度器相关的信息
Queue State: 队列运行状态,Running表示正常运行
Used Capacity: 已使用资源占队列配置值的百分比
Absolute Used Capacity: 已使用资源占集群的百分比
Absolute Capacity: queue 至少可以使用系统资源占集群的百分比
Absolute Max Capacity: queue 最多可以使用系统资源占集群的百分比
Used Resources: 已使用的memory和CPU
Num Schedulable Applications: 正在被调度的app应用个数
Num Non-Schedulable Applications: 没有被调度的app应用个数
Num Containers: 已启用的container容器数量
Max Applications: 最大可运行的应用数量(处于pending和running状态的
Max Applications Per User: 每个user最多可以运行的应用数量
Max Application Master Resources: 该queue使用的最大的内存和core
Used Application Master Resources: 该queue已经被使用的内存和core
Max Application Master Resources Per User:每个user最多可以使用该queue的最大内存和core
Configured Capacity: 配置该队列capacity
Configured Max Capacity: 配置该队列最大可使用capacity
Configured Minimum User Limit Percent: 每个user最多可以使用队列资源的百分比
Configured User Limit Factor: 队列中的用户允许占用队列值的多少,默认值是0.0~1
如果将值设置为1,它代表:最大可以占用整个队列资源,如果将值设置为2,它代表:允许队列所占资源增长到最多为队列容量的两倍
Accessible Node Labels: 标记节点
Preemption: 多用户是否抢占队列
2)、Tool菜单:
Configuration:集群所有的配置参数信息,包含(yarn-site.xml,mapred-default.xml,core-site.xml,hdfs-site.xml)
Local logs:查看本地的日志信息
Server stacks:服务的堆栈信息
Server metrics:服务指标信息