Hadoop 运行故障排查记录

这篇博客记录了在Hadoop运行过程中遇到的namenode和resource manager故障,表现为端口connection refused。作者通过检查logs、清理Zookeeper节点、调整资源分配等方式进行故障处理。最终发现故障可能是由于虚拟机内存不足导致,通过增加虚拟机内存到1G解决了问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 故障描述

hadoop 启动后,能够正常执行程序(hadoop jar …)若干次(小于10次),然后再要执行,就开始出现各种故障,包括但不限于

1.1 namenode 故障

  1. 一个 namenode: 9000 端口 connection refused
  2. 两个 namenode 都是 standby 状态
  3. 以下描述,等等:
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby

1.2 resource manager 故障

  1. resource manager : 8032 端口 connection refused
  2. 两个 resource manager 都是 standby 状态

2. 故障处理

2.1 读取对应的 logs 文件

查看关于故障的详细描述和原因,然后针对性解决。如果日志文件没有给出故障原因比如我的日志里面只是描述 connection refused 但是没有给出 caused by 原因。尝试按照以下手段来解决。

2.2 针对无明确原因的 namenode 故障

  1. 查看 namenode 状态如下:
hdfs haadmin -getAllServiceState 
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值