一、简介
本章,我们将介绍一个因为处理消息队列中的数据不当而引起的内存溢出问题,先来看下系统的背景。
1.1 系统背景
这是一个线上的数据同步系统,专门从Kafka消费其它系统送进去的数据,处理后存储到自己的数据库中:
就这么简单的一个系统,生产上却时不时报出OOM异常,然后就得重启系统。重启系统后,Java堆内存使用率越来越高,直到下次OOM异常。这种情况要么是因为系统并发太高,对象来不及回收,要么就是发生了内存泄漏,很多对象赖在内存里,无论如何就是GC不掉。
根据监控系统的显示,系统的访问量并不高,所以很可能就是因为某种对象”赖在了内存里“,然后不断触发GC,但就是无法回收掉:
二、问题分析
我们通过jstat观察系统运行时JVM的情况,发现老年代的对象一直增长,直到触发Full GC,但是Full GC根本回收不掉老年代中的对象。
下面就要通过MAT来确认下到底是什么对象一直进入老年代,在内存快照中,我们发现有一个队列数据结构,里面引用了大量的对象,正是这些对象一直占据内存不能被回收导致了OOM。
这个队列数据结构是啥?我们根据MAT分析线程调用栈,发现系统从Kafka消费的数据,首会先被存入到该队列数据结构中,然后接着程序再慢慢从这个队列中读数据,做些处理后写入到数据库中: