Hadoop HA集群 NameNode 无法自动故障转移(切换active)

本文详细记录了在Hadoop高可用(HA)配置下,主动NameNode被杀死后,备用NameNode未能自动升级为主动状态的问题。通过日志分析,发现原因是缺少fence操作,最终通过安装Psmisc包并重启HA集群解决了问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在学习 HA 自动化配置,按照hadoop官网:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 配置,最后所有的节点都启动正常。

用 kill -9 进程号 杀死了当前处于active状态的NameNode后,其他的 Standby 状态的NameNode 并没有自动切换为 Active状态,而且重启杀死的 NameNode 后,可能出现所有NameNode节点都变成了 Standby状态的情况,一个Active状态的都没有。

查看日志:${HADOOP_HOME}/logs/hadoop-root-zkfc-hadoop2.log ,发现报错了:

2020-01-03 19:21:13,636 WARN org.apache.hadoop.ha.FailoverController: Unable to gracefully make NameNode at hadoop3/192.168.233.13:8020 standby (unable to connect)
java.net.ConnectException: Call From hadoop2/192.168.233.12 to hadoop3:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
	at sun.reflect.GeneratedConstructorAccessor8.newInstance(Unknown Source)
	at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
	at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
	at org.apache.hadoop.net.NetUtils.wrapWithMessage(NetUtils.java:792)
.........................

这是因为没有 fuster 程序,导致无法进行 fence,根据官网上的配置,是在 hdfs-site.xml 中配置过相关配置:

<property>
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>
</property>

解决方法:安装包含fuster程序的软件包Psmisc(每个机器上都要安装):

yum -y install psmisc

 

然后重启整个HA集群,进行测试,问题解决

评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值