开源产品迭代快,但也容易存在隐患。有时会遇到意料之外的问题,需要研究代码解决。内存泄漏是一个很常见的问题,会导致服务不稳定,影响可用性。本文讲述了如何使用MAT和BTrace解决apache kylin内存泄漏问题,重点阐明如何定位问题,分析原因,验证猜想。
希望能抛砖引玉,让大家遇到类似内存泄漏问题时能够有所借鉴。
背景
公司自助报表业务从kylin2.0集群迁移到Kylin3.0集群时,Kylin job角色每隔2,3天所有进程OOM一遍,服务很不稳定,需要尽快解决。
调查思路
构建服务是32GB堆内存的java进程,OOM要么是内存确实不够用,要么是内存泄漏。考虑到报表业务之前使用的kylin2.0也是32GB内存,没遇到类似的OOM,所以首先怀疑内存泄漏,可能是2.0以后的新特性引入了问题。
再考虑到kylin3.0小集群用了很久也没有OOM,怀疑跟业务量和用法有关系。报表业务每天要构建几千次,构建模型各异,容易暴露出问题。一般来说,容器,Netty,ThreadLocal是内存泄漏的重灾区。要调查内存泄漏,可以使用内存分析工具MAT来分析堆内存。找到哪些对象内存用的多,以及对象的引用关系。找到怀疑的对象后,再做进一步的代码分析,用BTrace打印调用日志确定问题的原因,最后解决问题。
定位问题
java启动参数一般都会加-XX:+HeapDumpOnOutOfMemoryError,OOM时可以dump堆内存,生成java_pidxxxx.hprof文件供我们分析。
可以使用MAT(Memory Analyzer Tool)分析hprof文件。MAT的使用可自行谷歌,有需要可以给我留言。要注意的是要堆内存有几十GB,需要几十GB的空闲内存做分析。一般把MAT部署在内存空闲的测试服务器上,用vncserver提供可视化操作支持。
拷贝hprof文件到MAT服务器,启动MAT,加载hprof文件。
加载时如果报错

本文介绍了如何分析并解决Apache Kylin的内存泄漏问题,特别是针对InternalThreadLocalMap的泄漏。通过MAT工具进行堆内存分析,发现InternalThreadLocalMap对象的数组长度异常,可能由于不恰当的使用导致。通过BTrace验证猜想,最终将对象成员变量的InternalThreadLocal改回ThreadLocal,成功避免了内存泄漏和OOM。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



