一次线上OOM过程的排查

本文记录了一次线上服务因OOM导致的问题排查过程,包括使用top、dmesg、jstat、jmap等工具分析内存和JVM状态,发现byte[]数组占用过大,以及通过Tomcat日志定位到类加载器可能导致的内存泄露。最终升级ali-tomcat版本解决问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.出现问题

在前一段时间日常环境很不稳定,前端调用mtop接口会出网络异常或服务不存在的异常。查询了服务器上的HSF会有偶尔挂死的情况,服务器上的接口服务都不可用。于是我们对服务器上的状况进行了排查。

二.排查问题的过程

在这次的问题排查主要是围绕JVM的内存使用情况,生成对象分布情况以及GC情况来讨论的。中间有一些细节一开始存有疑问,迷雾的排除不算太顺利。首先要感谢下基础架构事业群的右席,井桐,梁希,坤谷 ,蚂蚁的寒泉子,中间技术部的思邪,望淘以及我们部的行默,今为,张霸,常晓师兄的一起讨论与问题排查的推动。为了写一篇比较干货,看了之后能立即上手开始排查一些类似问题的论文,我废话不多说,写一篇忽略掉曲折过程,直达终点的BLOG,有不当之处欢迎看官指出 :)

三.排查问题的步骤

1.查看服务器大概情况

首先最容易想到的是top命令,它能够实时显示系统中各个进程的资源占用状况,经常用来监控linux的系统状况,比如cpu、内存的使用。我上下当时截图的状况
图一

由于前段时间服务不可用了,于是我们重启了ali-tomcat服务,发现Java进程重启之后最显著的问题就是占用内存挺多,虚拟内存总量占了5.5G+,43.2%。

2.查看Java进程突然不服务的原因

先查看过了一些业务日志与关系紧密的中间件,组件(比如HSF,Mtop等)的日志,无明显历史错误。于是我们在考虑Java进程突然不可用的原因。这里推荐一个很实用的命令:dmesg。dmesg可以用来查看开机之后的系统日志,其中可以捕捉到一些系统资源与进程的变化信息。dmesg |grep -E ‘kill|oom|out of memory’ 来搜索内存溢出的信息挺实用。我们这次

### Java 线OOM OutOfMemoryError 解决方案 #### 一、理解 OOM 错误类型 Java 应用程序中的 `OutOfMemoryError` 主要分为几种常见类型: - **Java 堆内存不足(Java Heap Space OOM)** 这种类型的错误表明 JVM 的堆空间不足以完成垃圾回收操作,通常是因为对象过多或单个对象过大。当应用程序创建大量临时对象而未能及时释放时,可能会触发此类错误[^1]。 - **GC Overhead Limit Exceeded** 此错误表示垃圾收集器花费了太多时间尝试清理少量可用内存,导致应用性能严重下降甚至停止响应。Oracle 官方指出该情况通常是由于频繁的小规模垃圾回收造成系统资源耗尽所致[^2]。 #### 二、诊断工具技术 为了有效定位和解决问题,在线环境下的调试至关重要。可以采用如下手段来捕获必要的信息用于后续分析: - 使用 `-XX:+HeapDumpOnOutOfMemoryError` 参数配置JVM启动参数,使得发生OOM时自动生成heap dump文件供离线分析。 - 利用 VisualVM 或 JProfiler 进行实时监控,观察内存变化趋势以及各代存活对象数量;还可以通过这些工具获取线程转储(Thread Dump),帮助识别是否存在死锁等问题影响正常工作流程。 - 查看日志记录,特别是那些由第三方库生成的日志条目,它们可能隐藏着关于异常行为的重要线索。 ```bash jmap -histo:live <pid> | head -n 50 # 显示当前进程中前五十大类实例占用的总字节数量 ``` 上述命令可以帮助快速了解哪些类正在消耗较多的内存资源。 #### 三、具体措施建议 针对不同种类的 OOM 错误采取相应的预防性和修复性行动: 对于 **Java Heap Space OOM**: - 分析 heap dump 文件找出泄露源码位置; - 减少不必要的缓存数据保留期限; - 提高数据库查询效率减少一次性加载的数据集大小; - 合理调整最大堆尺寸(`-Xmx`) 和初始堆尺寸 (`-Xms`) 设置以适应实际负载需求。 面对 **GC Overhead Limit Exceeded** : - 修改 GC算法选项如选用G1收集器替代CMS; - 扩展年轻代比例使更多短生命周期的对象能够在此处被迅速清除而不进入老年代引发全局扫描; - 如果业务逻辑允许的话适当放宽gc开销阈值(-XX:GCTimeRatio=99); - 对于某些特殊场景考虑引入软/弱引用机制代替强引用来管理可选组件间的依赖关系从而降低整体压力. ```xml <property name="spring.datasource.hikari.maximumPoolSize" value="${MAX_POOL_SIZE}" /> <!-- 配置连接池的最大活跃数 --> ``` 合理设置数据库连接池参数也是缓解内存紧张的有效途径之一。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值