【Hive】 HiveServer2 内存溢出总结

1.前言

用户使用Beeline访问HiveServer2 (3.1.2版本) 执行离线SQL任务,持续运行一周后HiveServer2就出现OOM现象,严重影响数据查询与报表产出,经过几轮修复问题终于解决。作者把修复过的问题进行了汇总,避免其他小伙伴再遇到此问题时束手无策。

2.案例

2.1 HIVE-16455

HiveServer2 在使用ADD JAR语句时导致文件句柄泄漏

[root@host-10-17-80-111 ~]# lsof -p 29588 | grep "(deleted)" | wc -l
java    29588 hive  391u   REG              252,3    125987  2099944 /tmp/57d98f5b-1e53-44e2-876b-6b4323ac24db_resources/hive-contrib.jar (deleted)
java    29588 hive  392u   REG              252,3    125987  2099946 /tmp/eb3184ad-7f15-4a77-a10d-87717ae634d1_resources/hive-contrib.jar (deleted)
java    29588 hive  393r   REG              252,3    125987  2099825 /tmp/e29dccfc-5708-4254-addb-7a8988fc0500_resources/hive-contrib.jar (deleted)
java    29588 hive  394r   REG              252,3    125987  2099833 /tmp/5153dd4a-a606-4f53-b02c-d606e7e56985_resources/hive-contrib.jar (deleted)
java    29588 hive  395r   REG              252,3    125987  2099827 /tmp/ff3cdb05-917f-43c0-830a-b293bf397a23_resources/hive-contrib.jar (deleted)
java    29588 hive  396r   REG              252,3    125987  2099822 /tmp/60531b66-5985-421e-8eb5-eeac31fdf964_resources/hive-contrib.jar (deleted)
java    29588 hive  397r   REG              252,3    125987  2099831 /tmp/78878921-455c-438c-9735-447566ed8381_resources/hive-contrib.jar (deleted)
java    29588 hive  399r   REG              252,3    125987  2099835 /tmp/0e5d7990-30cc-4248-9058-587f7f1ff211_resources/hive-contrib.jar (deleted)
2.2 HIVE-24236

不容易复现,只能某些特定条件下可能存在连接泄漏风险

2020-09-29T18:44:26,563 INFO  [Heartbeater-0]: txn.TxnHandler (TxnHandler.java:checkRetryable(3733)) - Non-retryable error in heartbeat(HeartbeatRequest(lockid:0, txnid:11908)) : Cannot get a connection, general error (SQLState=null, ErrorCode=0)
2020-09-29T18:44:26,564 ERROR [Heartbeater-0]: metastore.RetryingHMSHandler (RetryingHMSHandler.java:invokeInternal(201)) - MetaException(message:Unable to select from transaction database org.apache.commons.dbcp.SQLNestedException: Cannot get a connection, general error
        at org.apache.commons.dbcp.PoolingDataSource.getConnection(PoolingDataSource.java:118)
        at org.apache.hadoop.hive.metastore.txn.TxnHandler.getDbConn(TxnHandler.java:3605)
        at org.apache.hadoop.hive.metastore.txn.TxnHandler.getDbConn(TxnHandler.java:3598)
        at org.apache.hadoop.hive.metastore.txn.TxnHandler.heartbeat(TxnHandler.java:2739)
        at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.heartbeat(HiveMetaStore.java:8452)
        at sun.reflect.GeneratedMethodAccessor415
<think>好的,我现在需要帮助用户监控HiveServer2 1.2.1的JVM状态和性能。首先,用户的问题是关于监控的具体方法,所以我要回想一下HiveServer2的监控手段。根据用户提供的引用内容,特别是引用[1]提到了资源利用监控,包括CPU、内存、硬盘和网络。这可能与JVM监控相关,因为JVM的性能问题通常涉及内存和CPU的使用情况。 首先,JVM监控通常包括内存使用、垃圾回收情况、线程状态等。对于HiveServer2,它是一个Java进程,所以标准的JVM监控工具应该适用。例如,jstat可以查看GC情况,jmap可以生成堆转储,jstack可以查看线程快照。另外,JMX(Java Management Extensions)也是一个常用的方法,可以通过开启JMX远程监控来获取JVM的详细数据。 然后,查看用户提供的引用,引用[3]提到了启动hiveserver2服务,引用[2]也涉及了hiveserver2的启动方式。这可能意味着用户已经正确启动了HiveServer2,现在需要监控其运行状态。另外,引用[1]中的性能调优部分提到内存是瓶颈时可能需要调整任务内存申请量,这可能与JVM的内存设置有关,比如调整堆大小参数(-Xmx和-Xms)。 接下来,我需要考虑如何具体实施这些监控方法。例如,使用JVM内置工具需要用户有服务器访问权限,并且知道如何执行这些命令。另外,JMX配置可能需要修改HiveServer2的启动参数,添加JMX相关的选项,如-Dcom.sun.management.jmxremote等。这部分可能需要用户编辑启动脚本,比如hiveserver2的启动脚本,添加这些参数。 另外,用户可能希望有图形化工具,比如JConsole或VisualVM,这些工具可以连接到JMX端口,实时监控JVM状态。需要指导用户如何配置和连接这些工具。同时,引用[1]中提到的资源监控可以通过Hive的Manager界面查看集群资源,但具体到JVM层面可能需要更细致的工具。 还需要考虑日志分析,HiveServer2的日志可能包含GC日志,通过分析GC日志可以了解内存使用情况和GC效率。用户需要启用GC日志记录,这同样需要修改JVM启动参数,添加-XX:+PrintGCDetails等选项。 此外,用户的问题是关于HiveServer2 1.2.1的特定版本,可能需要确认该版本是否有已知的监控特性或限制。不过,通常JVM监控方法在不同版本间差异不大,所以标准方法应该适用。 最后,总结可能的步骤:1. 使用JVM工具如jstat、jmap、jstack;2. 配置JMX远程监控并使用JConsole/VisualVM;3. 分析GC日志;4. 调整JVM参数进行优化。同时结合引用中的性能调优建议,如调整内存参数或执行引擎(引用[1]提到切换执行引擎到Spark可能提升性能),但用户当前的问题更侧重于监控而非调优,所以重点应放在监控方法上。 可能还需要提醒用户监控时的注意事项,比如开启JMX可能带来的安全风险,需要配置适当的网络权限和认证。另外,确保用户有权限访问相关的监控端口和日志文件。</think>要监控HiveServer2 1.2.1的JVM状态和性能,可通过以下步骤实现: --- ### 一、JVM内置工具监控 1. **使用`jstat`监控GC状态** 执行命令查看垃圾回收情况: ```bash jstat -gcutil <hiveserver2_pid> 1000 # 每秒刷新一次 ``` 输出指标包括:Eden区($E$)、老年代($O$)、元空间($M$)使用率,以及Full GC次数($FGC$)和耗时($FGCT$)[^1]。 2. **通过`jmap`分析堆内存** 生成堆内存快照: ```bash jmap -dump:format=b,file=hiveserver2_heap.hprof <pid> ``` 可用MAT或VisualVM分析内存泄漏。 3. **使用`jstack`抓取线程栈** 诊断线程阻塞或死锁问题: ```bash jstack <pid> > hiveserver2_threads.txt ``` --- ### 二、JMX远程监控 1. **修改启动参数** 在`hiveserver2`启动脚本(如`hive-env.sh`)中添加JMX配置: ```bash export HADOOP_OPTS="$HADOOP_OPTS -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=9010 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false" ``` 2. **使用JConsole/VisualVM连接** 通过JMX端口(如`9010`)连接,实时监控堆内存、线程、CPU使用率等指标(图1)。 --- ### 三、GC日志分析 1. **启用GC日志记录** 在启动脚本中增加参数: ```bash export HADOOP_OPTS="$HADOOP_OPTS -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/var/log/hive/gc.log" ``` 2. **分析工具推荐** 使用`GCViewer`或在线工具(如GCEasy)解析GC日志,识别频繁Full GC或内存溢出问题。 --- ### 四、HiveServer2日志关联 1. **检查运行日志** 默认日志路径为`/var/log/hive/hiveserver2.log`,关注`WARN`/`ERROR`级别的JVM相关报错,如`OutOfMemoryError`[^3]。 --- ### 五、性能调优建议 1. **调整JVM内存参数** 根据监控结果修改`hive-env.sh`: ```bash export HADOOP_HEAPSIZE=4096 # 堆内存调整为4GB ``` 2. **优化执行引擎** 如查询复杂,切换至Spark引擎提升性能(参数`hive.execution.engine=spark`)[^1]。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值