年轻代频繁GC ParNew导致http变慢

最新推荐文章于 2025-03-02 14:02:21 发布

原创最新推荐文章于 2025-03-02 14:02:21 发布 · 2.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#http #java #网络协议

私人干货专栏收录该内容

57 篇文章

订阅专栏

文章讲述了作者在接到线上服务超时报警后，通过监控、性能分析和日志追踪，发现问题是由于超大响应体引发的内存占用和频繁GC，强调了接口设计、缓存、性能测试和流量隔离的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景介绍

某日下午大约四点多，接到合作方消息，线上环境，我这边维护的某http服务突然大量超时（对方超时时间设置为300ms），我迅速到鹰眼平台开启采样，发现该服务平均QPS到了120左右，平均RT在2秒多到3秒，部分毛刺高达5到6秒（正常时候在60ms左右）。

qps情况：

在这里插入图片描述

rt情况
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yh5Dkh5l-1691546155736)(/uploads/new2021/images/m_62d7c0b3a62e26f8cc5167dc1669b3ec_r.png)]

问题解决

该服务是一个对内的运营平台服务（只部署了两台docker）预期qps个位数，近期没做过任何的线上发布，核心操作是整合查询数据库，一次请求最多涉及40次左右的DB查询，最终查询结果为一个多层树形结构，一个响应体大约50K。之前口头跟调用方约定要做缓存，现在看到QPS在120左右，（QPS证明没有做缓存），遂要求对方做缓存，降低QPS。后QPS降到80以内，rt恢复正常（平均60ms），最终QPS一直降到40（后续需要推动调用方上缓存，保证QPS在个位数）。

问题定位

由于该服务核心操作是查询数据库，且一次请求有40次DB query，遂首先排查是否慢sql导致，查看db性能监控，发现db 平均rt在0.3ms以内，可以算出来DB整体耗时在12ms左右，排除慢sql导致RT变高。

开始怀疑，是否DB连接池在高并发下出现排队，tddl默认的连接池大小是10.一查监控，整个占用的连接数从来没有超过7个，排除连接池不足的问题。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RvB79KCq-1691546155737)(/uploads/new2021/images/m_2c7e0b0f6b572ac90f9ec5dfb67ab396_r.png)]

至此，造成RT高的原因，在数据库层面被排除。

接着开始查采样到的服务调用链上的每一个执行点，看看到底是调用链上的那部分耗时最多。发现里面很多执行点都有一个特点，就是本地调用耗时特别长（几百毫秒），但是真正的服务调用（比如db查询动作）时间却很短，(0ms代表执行时间小于1ms，也间接印证之前db的平均RT在0.3ms以内)

本地调用耗时: 267ms

客户端发送请求: 0ms

服务端处理请求: 0ms

客户端收到响应: 1ms

总耗时: 1ms

这时候问题逐渐清晰，问题出现在本地方法执行的耗时过长，可是再次检查该服务所有代码，并没有需要长耗时的本地执行逻辑，那么继续看CPU的load情况。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-naLsYLu6-1691546155737)(/uploads/new2021/images/m_3382613beb181c991e8e34dd22a4a2b8_r.png)]

load长时间在4左右徘徊，我们的docker部署在4c8G的宿主机上，但是我们不能独占这个4C的，持续这么高的load已经不正常了。

继续追查cpu load飙高的原因，接着去看GC日志，发现大量的Allocation Failure，然后ParNew次数在每分钟100次以上，明显异常，见下GC日志例子

2020-03-25T16:16:18.390+0800:1294233.934: [GC (Allocation Failure)2020-03-25T16:16:18.391+0800:1294233.935: [ParNew:1770060K->25950K(1922432K),0.0317141secs]2105763K->361653K(4019584K),0.0323010secs] [Times: user=0.12sys=0.00, real=0.04secs]

每次占用cpu的时间在0.04s左右，但是由于ParNew GC太过频繁，每分钟最高100次以上，整体占用cpu时间还是很可观。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wLIQ4XwE-1691546155737)(/uploads/new2021/images/m_9dd9bb7ccc92f6f05715c7bdb851f653_r.png)]