线上诊断一个load很高的问题

最新推荐文章于 2024-07-26 19:00:00 发布

最新推荐文章于 2024-07-26 19:00:00 发布 · 161 阅读

本文记录了一次解决服务器高diskio的问题经历，通过排查发现是由Apache mod_proxy模块在特定条件下写临时文件导致。此外还揭示了一个关于年轻代垃圾回收(YGC)监控数据合并时出现的误报问题。

从监控系统中发现某集群的load很高，分析到最后发现是大量的disk io引起的。
于是优化了上传的组件不写临时文件，发现io还是很高。
再测试，竟然是apache的默认filter被改变后触发了mod_proxy的写临时文件的条件，由于apache是写死在代码中的无法配置，于是将filter
重新注册为apache默认的protocol类型，临时文件没有了，dosk io直接下降n倍。

然后参断的几个人说YGC高，然后去研究为什么高。我上了其中某台机器直接就jps|jstat -gcutil 1000 100,发现根本不高，然后直接发现是监控系统在数据合并时只累加值没有除以累加次数。狗血！