降级机制设计不当，线上系统瞬间崩溃...

原创

于 2022-07-14 21:16:53 发布 · 225 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#中间件 #java #数据库 #服务降级 #JVM

本文讲述了由于MQ中间件故障触发的降级机制设计不当，导致线上系统在高峰期瞬间崩溃。系统使用内存双缓冲+批量刷磁盘的方式应对MQ故障，但在高并发下，由于当前缓冲区满后所有线程无限等待，导致系统卡死。通过分析JVM快照发现问题在于缓冲区大小不足，扩容后解决了问题。这个案例强调了系统设计需能承受最大流量压力测试的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

V-xin：ruyuanhadeng获得600+页原创精品文章汇总PDF

背景介绍

背景情况是这样：线上一个系统，在某次高峰期间MQ中间件故障的情况下，触发了降级机制，结果降级机制触发之后运行了一小会儿，突然系统就完全卡死，无法响应任何请求。

给大家简单介绍一下这个系统的整体架构，这个系统简单来说就是有一个非常核心的行为，就是往MQ里写入数据，但是这个往MQ里写入的数据是非常核心及关键的，绝对不容许有丢失。

所以最初就设计了一个降级机制，如果一旦MQ中间件故障，那么这个系统立马就会把核心数据写入本地磁盘文件。

但是如果说在高峰期并发量比较高的情况下，接收到一条数据立马同步写本地磁盘文件，这个性能绝对是极其差的，会导致系统自身的吞吐量瞬间大幅度下降，这个降级机制是绝对无法在生产环境运行的，因为自己就会被高并发请求压垮。

因此当时设计的时候，对降级机制进行了一番精心的设计。

我们的核心思路是一旦MQ中间件故障，触发降级机制之后，系统接收到一条请求不是立马写本地磁盘，而是采用内存双缓冲 + 批量刷磁盘的机制。

简单来说，系统接收到一条消息就会立马写内存缓冲，然后开启一个后台线程把内存缓冲的数据刷新到磁盘上去。

整个过程，大家看看下面的图，就知道了。
在这里插入图片描述

这个内存缓冲实际在设计的时候，分为了两个区域。

一个是current区域，用来供系统写入数据，另外一个是ready区域，用来供后台线程刷新数据到磁盘里去。

每一块内存区域设置的缓冲大小是512kb，系统接收到请求就写current缓冲区，但是current缓冲区总共就512kb的内存空间，因此一定会写满。

同样，大家结合下面的图，一起来看看。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。