standby resourcemanger机器报错端口不可用,8088端口正常,进程在,日志正常
解决思路
1、登录两台resourcemanger机器,查看/var/log/hadoop-yarn/hadoop-hadoop-resourcemanager-emr-header-1.cluster*.log日志是否有报错信息
2、排查是否有自动拉起的日志:STARTUP_MSG: Starting ResourceManager,判断是否出现过active-standby的切换
2021-08-10 17:58:01,750 INFO org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Already in standby state
3、排查standy日志发现问题:一直连接不上zk,不断在尝试重连。zk连接异常持续了较长了时间,可能最后有超时导致不再重连,就可能进入Terminated状态。
是因为header-1的resourcemanager状态有问题,HA的状态,haZooKeeperConnectionState的状态是TERMINATED导致的。
4、状态可以通过在header-1上运行,curl http://localhost:8088/ws/v1/cluster/info