HBase bug:重启机群后不能正常工作

讨论了HBase集群在重启后无法正常工作的现象,包括web接口访问时出现500Exception,以及region没有被服务的问题。详细介绍了重现过程和深层次原因,并指出jira上尚未发现相关bug。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

现象:
hbase机群重启后不能正常工作,通过web接口访问时,500 Exception的样子。hbase hbck显示很多region没有被服务。

重现过程:
某些情况下下,比如系统压力比较大,或者master意外kill掉了,master会被快速重启。
这个时候region server是正常的,region server会通过zookeeper感知这个事件,并将master切换到新的服务进程上。
但是region server没有做其他的清理工作,这会导致regionserver依然对hbase的journal log(/hbase/.logs/<FQHN>)文件保持写入权限。
而master启动后第一件事就是重放journal,而且很诡异的他选择用append方式打开已有的journal log,这个是hdfs不允许的,于是master不停的尝试append,有不停的失败重试。
于是系统陷入死锁,master在等待重放rs,而rs在等待master发送load region的指令。

深层次的原因还在看代码。jira上还没搜索到相关的bug。这两天集中搞定这个问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值