NameNode 自动重启问题排查

本文记录了一次HDFS NameNode HA架构中出现的故障现象及排查过程。客户端重复提交复杂查询,加之HDFS正在进行Rebalancer操作,导致Standby NameNode频繁重启。通过对日志的分析和资源调整,最终解决了问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NameNode部署的HA架构,由于客户端重复提交了一些复杂查询,而且当时Hdfs当时正在做Rebalancer.  导致standy节点来回重起

1. 首起查看NameNode日志,发现出现了很多以下的error:

   Get corrupt file blocks returned error: Operation category READ is not supported in state standby

   尝试了几个方案,包括强制切换active和standy,不管用

2. 后来发现连带clouder manager agent的都来回异出退出,
   想了一下,最近有两个节点的blocks数过多,而现在NameNode分配的内存只有1G, 看来有可能是内存不够用了,把内存加到后4G后,重起,果断管用了。。。

不过小文件的问题还是要解决的,每个block太小,bock数量过多。map数量过多,这个问题也必须要解决
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值