已解决:hadoop namenode无法启动:Call From node1/192.168.152.31 to node2:8485 failed on connection exception

本文详细记录了一次Hadoop集群中NameNode启动失败的问题排查过程,主要原因是JournalNode服务未能及时启动导致连接异常。通过调整核心配置文件core-site.xml中的IPC参数,包括增加连接重试次数和延长重试间隔,最终解决了连接异常问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2020-01-12 16:23:02,893 FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [192.168.152.31:8485, 192.168.152.32:8485, 192.168.152.33:8485], stream=null))
org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size 2/3. 3 exceptions thrown:
192.168.152.31:8485: Call From node1/192.168.152.31 to node1:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
192.168.152.33:8485: Call From node1/192.168.152.31 to node3:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
192.168.152.32:8485: Call From node1/192.168.152.31 to node2:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
	at org.apache.hadoop.hdfs.qjournal.client.QuorumException.create(QuorumException.java:81)
	at org.apache.hadoop.hdfs.qjournal.client.QuorumCall.rethrowException(QuorumCall.java:223)
	at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:142)
	at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.createNewUniqueEpoch(QuorumJournalManager.java:182)
	at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.recoverUnfinalizedSegments(QuorumJournalManager.java:436)
	at org.apache.hadoop.hdfs.server.namenode.JournalSet$8.apply(JournalSet.java:624)
	at org.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:393)
	at org.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:621)
	at org.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1394)
	at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1151)
	at org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.startActiveServices(NameNode.java:1663)
	at org.apache.hadoop.hdfs.server.namenode.ha.ActiveState.enterState(ActiveState.java:61)
	at org.apache.hadoop.hdfs.server.namenode.ha.HAState.setStateInternal(HAState.java:63)
	at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.setState(StandbyState.java:49)
	at org.apache.hadoop.hdfs.server.namenode.NameNode.transitionToActive(NameNode.java:1541)
	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.transitionToActive(NameNodeRpcServer.java:1335)
	at org.apache.hadoop.ha.protocolPB.HAServiceProtocolServerSideTranslatorPB.transitionToActive(HAServiceProtocolServerSideTranslatorPB.java:107)
	at org.apache.hadoop.ha.proto.HAServiceProtocolProtos$HAServiceProtocolService$2.callBlockingMethod(HAServiceProtocolProtos.java:4460)
	at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:619)
	at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:975)
	at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2040)
	at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2036)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:422)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1692)
	at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2034)
2020-01-12 16:23:02,894 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 1
2020-01-12 16:23:02,895 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************

start-dfs.sh启动的集群,journalnode(端口8485)是在namenode后启动的。默认情况下namenode启动10s(maxRetries=10, sleepTime=1000)后journalnode还没有启动,就会报上述错误

解决办法:修改core-site.xml中的ipc参数,如果没有就添加如下参数

<!--修改core-site.xml中的ipc参数,防止出现连接journalnode服务ConnectException-->
<property>
    <name>ipc.client.connect.max.retries</name>
    <value>100</value>
    <description>Indicates the number of retries a client will make to establish a server connection.</description>
</property>
<property>
    <name>ipc.client.connect.retry.interval</name>
    <value>10000</value>
    <description>Indicates the number of milliseconds a client will wait for before retrying to establish a server connection.</description>
</property>

 

看起来你遇到了Hadoop分布式文件系统(HDFS)之间通信的问题,具体表现为`Call From`主机到另一个主机的连接失败。这通常与网络设置、防火墙配置以及Hadoop守护进程的安全性有关。以下是可能的原因和解决方案: 报错原因: 1. **防火墙阻止**:如果主节点(hadoop1)的9000端口受到防火墙限制,导致其他节点无法连接。 2. **端口未开放**:即使防火墙允许,也可能是因为主节点的9000端口并未开启,用于接收客户端请求。 3. **远程访问权限**:即使端口开放,若设置了只允许本地连接,那么外部节点会收到拒绝连接。 报错解决步骤(简易版本)[^2]: 1. **检查防火墙设置**:确认主节点的防火墙是否允许来自其他节点的TCP连接,特别是9000端口。 ```shell sudo ufw allow from <slave_ip> to any port 9000 ``` 2. **启动Hadoop服务**:确保Hadoop在主节点上运行并且NameNode(可能是`hdfs namenode -format`后的结果)正在监听9000端口。 3. **修改配置**:检查`core-site.xml`或`hdfs-site.xml`中的`<dfs.http.address>`配置,确保允许远程访问。默认应为`localhost`,需改为全网地址如`0.0.0.0`。 4. **重启Hadoop服务**:如果上述步骤调整了配置,需要重启Hadoop以应用新的设置。 ```shell sudo service hadoop-daemon restart namenode ``` 如果你遇到类似`mkdir: Call From hadoop102/192.168.45.102 to hadoop102:8020 failed on connection exception: java.net...`的错误,可能说明尝试连接的节点自身存在问题,或者是网络环境内部的连通性问题。检查hadoop102自身的网络设置和Hadoop服务状态也是必要的。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值