给你一颗“定心丸”——记一次由线上事故引发的Log4j2日志异步打印优化分析

Log4j2异步日志优化：服务故障中的问题排查与解决方案

原创

于 2024-01-29 10:09:30 发布 · 1.3k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#log4j #单元测试 #junit

一、内容提要

自知是人外有人，天外有天，相信对于Log4j2的异步日志打印早有老师或者同学已是熟稔于心，优化配置更是信手拈来，为了防止我在这里啰里八嗦的班门弄斧，我先将谜底在此公布：_log4j2.asyncQueueFullPolicy=Discard & log4j2.discardThreshold=ERROR__，这两个Log4j2配置在强依赖的RPC服务方系统或中间件系统出现问题且业务流量巨大时，对系统的快速止血和影响范围的控制有奇效。_要问为什么如此配置，是否还有高手？请见下文分晓。

二、现场还原

在2023年12月15日这“普通”的一天午后14点25分，我们收到了来自UMP的报警，接口服务可用率直接从100%干到了0.72%（该服务会直接影响到订单接单的相关流程，对客户体验有着重大影响）。我们顺藤摸瓜，并配合其他的服务监控定位到是强依赖系统出现了故障，导致其服务高度不可用，因此赶紧联系相关系统同事进行问题排查和处理。

大概14:33左右，服务端系统同事反馈已经机器扩容完成，由以下截图可见，确实在14:32左右服务可用率开始有抬头趋势，但是至此问题却并未终结，在14:36服务可用率开始急转直下（错误日志内容除了服务响应超时，服务端线程池满等异常以外，同时还收到了无服务的异常以及其他不相关服务调用的超时异常）。服务端系统同事反馈新扩容机器仅有极少数流量流入，如此“意外之喜”是我们没想到的，其后续排查和问题定位的过程分析也是该文成文的主要原因。最终我们通过操作客户端机器重启，服务得以完全恢复。