java base server 状态_hbase regionserver异常宕机

最新推荐文章于 2022-10-24 21:24:17 发布

浪斌

最新推荐文章于 2022-10-24 21:24:17 发布

阅读量729

点赞数

文章标签： java base server 状态

本文链接：https://blog.youkuaiyun.com/weixin_33474462/article/details/114878191

版权

这篇博客分析了一起HBase RegionServer因DroppedSnapshotException异常宕机的案例。错误源于刷新Memstore时，HDFS写入数据时间过长。触发因素包括Memstore大小限制、Region Server全局内存限制和HLog数量限制。解决方案涉及调整memstore设置、检查HDFS健康状况、优化DataNode集群负载和网络，以及必要时重启服务器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原因分析：

线上hbase，在凌晨1点左右，发现某一台regionserver进行了重启(regionserver加了守护线程)

1、查看master日志：

2020-02-27 01:04:57,001 ERROR [RpcServer.FifoRWQ.default.read.handler=26,queue=10,port=16000] master.MasterRpcServices: Region server a3ster,16020,1582342923163reported a fatal error:

ABORTING region server a3ser,16020,1582342923163: Replay of WAL required. Forcing server shutdown

Cause:

org.apache.hadoop.hbase.DroppedSnapshotException: region: T_BL,\x0A\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00,1572576275632.069e4d877a4ff46f9964ac8bcddb09ef.

at org.apache.hadoop.hbase.regionserver.HRegion.internalFlushCacheAndCommit(HRegion.java:2509)

at org.apache.hadoop.hbase.regionserver.HRegion.internalFlushcache(HRegion.java:2186)

at org.apache.hadoop.hbase.regionserver.HRegion.internalFlushcache(HRegion.java:2148)

at org.apache.hadoop.hbase.regionserver.HRegion.flushcache(HRegion.java:2039)

at org.apache.hadoop.hbase.regionserver.HRegion.flush(HRegion.java:1965)

at org.apache.hadoop.hbase.regionserver.MemStoreFlusher.flushRegion(MemStoreFlusher.java:505)

at org.apache.hadoop.hbase.regionserver.MemStoreFlusher.flushRegion(MemStoreFlusher.java:475)

at org.apache.hadoop.hbase.regionserver.MemStoreFlusher.access$900(MemStoreFlusher.java:75)

at org.apache.hadoop.hbase.regionserver.MemStoreFlusher$FlushHandler.run(MemStoreFlusher.java:263)

at java.lang.Thread.run(Thread.java:748)

Caused by: org.apache.hadoop.hbase.exceptions.TimeoutIOException: Failed toget sync result after 300000 ms for ringBufferSequence=101793126, WAL system stuck?at org.apache.hadoop.hbase.regionserver.wal.SyncFuture.get(SyncFuture.java:174)

at org.apache.hadoop.hbase.regionserver.wal.FSHLog.blockOnSync(FSHLog.java:1406)

at org.apache.hadoop.hbase.regionserver.wal.FSHLog.publishSyncThenBlockOnCompletion(FSHLog.java:1400)

at org.apache.hadoop.hbase.regionserver.wal.FSHLog.sync(FSHLog.java:1512)

at org.apache.hadoop.hbase.regionserver.wal.WALUtil.writeMarker(WALUtil.java:126)

at org.apache.hadoop.hbase.regionserver.wal.WALUtil.writeFlushMarker(WALUtil.java:75)

at org.apache.hadoop.hbase.regionserver.HRegion.internalFlushCacheAndCommit(HRegion.java:2486)

...9more2020-02-27 01:04:57,032 ERROR [RpcServer.FifoRWQ.default.read.handler=29,queue=8,port=16000] master.MasterRpcServices: Region server a3ser,16020,1582342923163reported a fatal error:

ABORTING region server a3serz,16020,1582342923163: Replay of WAL required. Forcing server shutdown

Cause:

2、查看regioserver 日志

2020-02-27 01:04:56,813 WARN [ResponseProcessor for block BP-1884348122-10.62.2.1-1545175191847:blk_1489206371_467735337] hdfs.DFSClient: Slow ReadProcessor read fields took 327586ms (threshold=30000ms); ack: seqno: 1 status: SUCCESS status: SUCCESS downstreamAckTimeNanos: 965211 4: "\000\000", targets: [11.23.3.3:9866, 11.23.3.5:9866]2020-02-27 01:04:56,816 FATAL [MemStoreFlusher.6] regionserver.HRegionServer: ABORTING region server a3serz,16020,1582342923163: Replay of WAL required. Forcing server shutdown