公司当年有一个自己缓存集群用户session的Java library,是基于hazlcast2.0.3实现的,最近在customer site集群环境中某个blade报了Out of Memory Exception, 其他blades都正常,马上用jrockit jrcmd命令dump了堆和线程进行分析。
printf “##################### heap ##################\n”
su -p occas -c "/opt/jrockit-jdk/bin/jrcmd `ps -ewf | grep weblogic.Name=traffic | grep -v grep | awk '{print $2}'` heap_diagnostics "
printf “#####################threads ##################\n”su -p occas -c "/opt/jrockit-jdk/bin/jrcmd `ps -ewf | grep weblogic.Name=traffic | grep -v grep | awk '{print $2}'` print_threads"
用eclippse memory analyer打开dump回来的heap文件,打开Dominator Tree,发现hazelcast的ConcurrentMapManager吃掉了大部分的系统内存,其持有的CMap包含的java.util.concurrent.ConcurrenthashMap hashentry的数目无比巨大(近80w), 如图

本文详细分析了一起由于使用Hazelcast 2.0.3导致的Java内存泄漏问题。通过JRockit jrcmd命令获取的堆和线程信息,发现HashEntry不断增长但无法被清除。深入研究Hazelcast的源码,特别是`startCleanup`函数,发现可能的原因包括`startCleanup`未被调用或其内部逻辑错误。目前怀疑与`lastCleanup`时间戳更新及`shouldRun`和`cleanupActive`的compareAndSet操作有关,但硬件或操作系统错误也可能导致问题。下篇将继续探讨调用栈以找出问题根源。
最低0.47元/天 解锁文章
2770

被折叠的 条评论
为什么被折叠?



