java突发内存和CPU同时100%排查解决

本文介绍了一次SpringBoot微服务项目中出现的性能问题,包括CPU和内存使用率飙升至100%的情况。通过使用arthas、jstat等工具定位问题,并借助MAT工具深入分析内存dump文件,最终找到了导致性能瓶颈的具体原因。

问题说明

springBoot 微服务项目,生产环境突然CPU和内存使用率都100%,导致接口请求超时。

初步排查

  1. 接口慢首先排除数据库和慢sql的影响,本次问题是所有接口同事慢,不是单个接口,所以不是数据库问题。
  2. 大面积接口慢很可能是CPU负载高,生产环境都有服务器监控,查看监控。
    在这里插入图片描述
    在这里插入图片描述
  3. 如果CPU很高,内存正常,很可能是那一段程序消耗cpu。首先使用阿里的arthas工具,thread -n命令查看cpu高的堆栈,然后再解决。
    我们遇到的是内存也很高,很可能是垃圾回收占用CPU,先用命令行快速排查一遍。
    jstat查看堆内存使用情况:jstat -gcutil 1 1000
    1000ms输出一次,线程pid=1的内存使用情况
    在这里插入图片描述
    jmap查看存活对象:jmap -histo:live 1
    统计pid=1的程序,存活对象使用情况,发现两百多万个业务对象。
    在这里插入图片描述
    总结:以上排查都是现有监控和简单命令行,进入服务器就可以快速得到结论。由于业务对象有几十个地方都用到了,不确定那个方法引起的,所以需要进一步深度排查,dump内存进行分析

使用MAT工具分析dump内存

  1. 保留事故现场,dump内存
    jmap -dump:format=b,file=/test/jmap_dump_all.hprof
    我们服务器内存比较大,dump文件7G,先zip压缩再下载到本地进行分析。zip压缩后大小1G。

  2. 安装和调试mat工具

  • 我用的mac,下载mac最新版本 : https://www.eclipse.org/mat/previousReleases.php
    在这里插入图片描述
  • 由于国内主流是java8,mat工具打开会报错,最新版本需要java11启动。
    在这里插入图片描述
    下载解压jdk11(不用配置环境变量) 进入Oracle 官网:https://www.oracle.com/java/technologies/downloads/#java11
  • 配置jdk
    step1. 在应用列表,找到mat应用,然后右键单击后,选择“显示包内容”
    step2. 进入Contents目录,找到Info.plist文件
    step3. 打开Info.plist文件
    step4. 编辑-vm配置,将解压的jdk11目录配置上
    在这里插入图片描述
    在这里插入图片描述
  • 默认只能打开1024M的文件,7G文档打开会报错OOM
    在这里插入图片描述
    在这里插入图片描述
  1. 使用mat工具
  • 用mat工具打开dump文件
  • 点击dominator_tree
  • 查看内存占用高的详情,根据堆栈找到入口接口
    在这里插入图片描述
    在这里插入图片描述

最后

mat工具找到占用内存的入口堆栈和具体对象,最后就是根据业务去优化了

### 排查处理 CPU 使用率达到 100% 的方法 当 CPU 使用率达到 100% 时,系统性能会显著下降,甚至可能导致服务不可用。为了有效排查解决问题,需要结合系统监控工具日志分析技术。 #### 1. 使用 `top` `ps` 工具分析进程级 CPU 使用情况 `top` `ps` 是最常用的性能分析工具,`top` 显示了系统总体的 CPU 内存使用情况,以及各个进程的资源使用情况,而 `ps` 则只显示了每个进程的资源使用情况[^1]。通过 `top` 命令,可以查看当前 CPU 使用率的总体情况,并按下数字 1 来切换到每个 CPU 的使用率视图,从而进一步分析具体是哪个 CPU 出现了瓶颈[^2]。 ```bash top ``` #### 2. 分析具体占用 CPU 的进程 在 `top` 输出中,可以识别出占用 CPU 资源最高的进程。记录这些进程的 PID,然后使用 `ps` 命令进一步分析它们的详细信息: ```bash ps -p <PID> ``` 如果发现某个特定进程占用了大量 CPU 资源,可以结合日志文件堆栈跟踪来分析其内部逻辑。例如,在 Java 应用中,如果垃圾回收器(GC)占用了大量 CPU 资源,说明 JVM 已经没有可分配的内存,可能是由于突发的异常逻辑分配了大量内存,导致达到 JVM 的 Heap 上限,从而引发频繁的 Full GC,最终占满 CPU 资源[^4]。 #### 3. 检查数据库相关操作 如果系统依赖数据库,可以检查当前正在执行的 SQL 语句,以识别是否存在性能问题。例如,可以通过以下命令查询当前正在执行的 SQL 语句: ```sql SHOW FULL PROCESSLIST; ``` 如果发现某个 SQL 语句执行时间较长,例如 `SELECT * FROM sec_prize_record LIMIT 11230, 5`,可以进一步优化查询逻辑,例如通过添加索引或调整分页策略来提升性能[^5]。 #### 4. 分析系统日志应用程序日志 系统日志(如 `/var/log/messages` 或 `/var/log/syslog`)应用程序日志是排查 CPU 使用率异常的重要依据。通过日志分析,可以识别出是否发生了异常请求、资源泄漏或代码逻辑错误。例如,某些异常的请求模式可能导致某个服务频繁调用高消耗函数,从而导致 CPU 使用率飙升。 #### 5. 使用性能分析工具进行深度分析 除了基础的 `top` `ps` 工具,还可以使用更高级的性能分析工具,例如 `perf`、`strace`、`htop` 等,来深入分析 CPU 使用情况。`perf` 可以用于分析函数级别的 CPU 使用情况,帮助识别出具体的热点函数: ```bash perf top ``` 此外,`strace` 可以用于跟踪系统调用信号,帮助识别出进程在内核态的资源消耗情况: ```bash strace -p <PID> ``` #### 6. 优化处理高 CPU 使用率问题 一旦确定了导致 CPU 使用率异常的进程或操作,可以采取以下措施进行优化: - **代码优化**:检查是否存在死循环、递归调用、频繁的锁竞争等问题,并进行优化。 - **资源限制**:为关键服务设置 CPU 使用率上限,防止某个服务占用全部 CPU 资源。 - **负载均衡**:将高负载的服务拆分到多个实例上,通过负载均衡技术分摊压力。 - **异步处理**:将耗时操作异步化,避免阻塞主线程或主进程。 - **数据库优化**:优化慢查询、添加合适的索引、调整数据库配置等。 ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值