解决内存泄漏(1)-ApacheKylin InternalThreadLocalMap泄漏问题分析

本文介绍了如何分析并解决Apache Kylin的内存泄漏问题,特别是针对InternalThreadLocalMap的泄漏。通过MAT工具进行堆内存分析,发现InternalThreadLocalMap对象的数组长度异常,可能由于不恰当的使用导致。通过BTrace验证猜想,最终将对象成员变量的InternalThreadLocal改回ThreadLocal,成功避免了内存泄漏和OOM。

开源产品迭代快,但也容易存在隐患。有时会遇到意料之外的问题,需要研究代码解决。内存泄漏是一个很常见的问题,会导致服务不稳定,影响可用性。本文讲述了如何使用MAT和BTrace解决apache kylin内存泄漏问题,重点阐明如何定位问题,分析原因,验证猜想。

希望能抛砖引玉,让大家遇到类似内存泄漏问题时能够有所借鉴。

背景

公司自助报表业务从kylin2.0集群迁移到Kylin3.0集群时,Kylin job角色每隔2,3天所有进程OOM一遍,服务很不稳定,需要尽快解决。

调查思路

构建服务是32GB堆内存的java进程,OOM要么是内存确实不够用,要么是内存泄漏。考虑到报表业务之前使用的kylin2.0也是32GB内存,没遇到类似的OOM,所以首先怀疑内存泄漏,可能是2.0以后的新特性引入了问题。

再考虑到kylin3.0小集群用了很久也没有OOM,怀疑跟业务量和用法有关系。报表业务每天要构建几千次,构建模型各异,容易暴露出问题。一般来说,容器,Netty,ThreadLocal是内存泄漏的重灾区。要调查内存泄漏,可以使用内存分析工具MAT来分析堆内存。找到哪些对象内存用的多,以及对象的引用关系。找到怀疑的对象后,再做进一步的代码分析,用BTrace打印调用日志确定问题的原因,最后解决问题。

定位问题

java启动参数一般都会加-XX:+HeapDumpOnOutOfMemoryError,OOM时可以dump堆内存,生成java_pidxxxx.hprof文件供我们分析。

可以使用MAT(Memory Analyzer Tool)分析hprof文件。MAT的使用可自行谷歌,有需要可以给我留言。要注意的是要堆内存有几十GB,需要几十GB的空闲内存做分析。一般把MAT部署在内存空闲的测试服务器上,用vncserver提供可视化操作支持。

拷贝hprof文件到MAT服务器,启动MAT,加载hprof文件。

加载时如果报错

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值