场景介绍
国庆期间Hbase集群有一台RegionServer a02机器的内存故障原因导致下线,集群在少一台的情况下运行正常,节后a02机器内存故障修复后重新加入集群提供服务,几乎同时发现集群另外一台a04的CPU使用率高居不下, 按照常理分析集群恢复至最初状态,应该会运行良好,实际上却是a04的CPU使用率一路飚高。
问题初步排查
- Region数据排查,集群Region数量均衡,并无发现异常
- GC日志分析,发现Parnew频率有增加,1天20-30次,与其他机器比偏高
- RegionServer日志排查,也没有发现异常输出
- 配合网卡、磁盘IO等也没有发现什么端倪,RPC处理队列变大