场景介绍
国庆期间Hbase集群有一台RegionServer a02机器的内存故障原因导致下线,集群在少一台的情况下运行正常,节后a02机器内存故障修复后重新加入集群提供服务,几乎同时发现集群另外一台a04的CPU使用率高居不下, 按照常理分析集群恢复至最初状态,应该会运行良好,实际上却是a04的CPU使用率一路飚高。
问题初步排查
- Region数据排查,集群Region数量均衡,并无发现异常
- GC日志分析,发现Parnew频率有增加,1天20-30次,与其他机器比偏高
- RegionServer日志排查,也没有发现异常输出
- 配合网卡、磁盘IO等也没有发现什么端倪,RPC处理队列变大

国庆后修复内存故障的Hbase RegionServer a02重新加入集群,导致另一台a04 CPU使用率飙升。初步排查未发现软件异常,后经硬件检查发现a04内存存在问题,更换内存后问题解决。分析GC日志提示可能在8月初有重大事件影响,调优GC参数和启用MemStoreChunkPool以优化性能。
最低0.47元/天 解锁文章
1200

被折叠的 条评论
为什么被折叠?



