【甘道夫】HBase随机宕机事件处理 & JVM GC回顾

最新推荐文章于 2022-08-21 23:32:43 发布

Gandalf_lee

最新推荐文章于 2022-08-21 23:32:43 发布

阅读量4.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Hadoop2.0 HBase 文章标签： hbase宕机 jvm gc hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u010967382/article/details/42394031

本文探讨了HBase随机宕机的事件，并深入分析了JVM的垃圾回收机制，包括伊甸园、幸存者空间和老年代的角色，以及Serial、Parallel、Parallel Old和CMS、G1等不同GC策略的工作流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、引言

本文记录了困扰团队两周的HBase随机宕机事件的解决方案，并回顾了JVM GC调优基础知识，供各位参考。

欢迎转载，请注明出处：

http://blog.youkuaiyun.com/u010967382/article/details/42394031

二、实验环境

16台虚拟机，每台4G内存，1核CPU，400G硬盘

Ubuntu 14.04 LTS (GNU/Linux 3.13.0-29-generic x86_64)

CDH5.2.0套装（包括相应版本的Hadoop，HIVE，Hbase，Mahout，Sqoop，Zookeeper等）

Java 1.7.0_60 64-Bit Server

三、异常现场

在以上实验环境中执行计算任务，计算任务涉及HIVE、Mahout、Hbase bulkload、MapReduce，工作流驱动通过Shell脚本控制，整个任务执行过程涉及基础行为数据160万条，业务数据40万条。

多次执行任务过程中反复随机出现以下各类异常，仅用文字描述，就不拷贝异常现场了，大家各自对号入座：

1.Hbase的Regionserver进程随机挂掉（该异常几乎每次都发生，只是挂掉的Regionser节点不同）

2.HMaster进程随机挂掉

3.主备Namenode节点随机挂掉

4.Zookeeper节点随机挂掉

5.Zookeeper连接超时

6.JVM GC睡眠时间过长

7.datanode写入超时

等等

通过调研分析和调试，发现问题解决需从以下几个方面着手：

1.Hbase的ZK连接超时相关参数调优：默认的ZK超时设置太短，一旦发生FULL GC，极其容易导致ZK连接超时；

2.Hbase的JVM GC相关参数调优：可以通过GC调优获得更好的GC性能，减少单次GC的时间和FULL GC频率；

3.ZK Server调优：这里指的是ZK的服务端调优，ZK客户端（比如Hbase的客户端）的ZK超时参数必须在服务端超时参数的范围内，否则ZK客户端设置的超时参数起不到效果；

4.HDFS读写数据相关参数需调优；

5.YARN针对各个节点分配资源参数调整：YARN需根据真实节点配置分配资源，之前的YARN配置为每个节点分配的资源都远大于真实虚拟机的硬件资源；

6.集群规划需优化：之前的集群规划中，为了充分利用虚拟机资源，NameNode、NodeManager、DataNode，RegionServer会混用同一个节点，这样会导致这些关键的枢纽节点通信和内存压力过大，从而在计算压力较大时容易发生异常。正确的做法是将枢纽节点（NameNode，ResourceManager，HMaster）和数据+计算节点分开。

四、为了解决该问题而实施的各类配置及集群调整

HBase

hbase-site.xml

<property>

<name>zookeeper.session.timeout</name>

<value>300000</value>

</property>

<property>

<name>hbase.zookeeper.property.tickTime</name>

<value>60000</value>

</property>

<property>

<name>hbase.hregion.memstroe.mslab.enable</name>

<value>true</value>

</property>

<property>

<name>hbase.zookeeper.property.maxClientCnxns</name>

<value>10000</value>

</property>

<property>

<name>hbase.client.scanner.timeout.period</name>

<value>240000</value>

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。