一、消息积压
某版本需求,代码处理逻辑错误,导致配置新增服务范围扩大,造成消息成百倍增长,突增的消息通道部分拥堵。新增的服务会不断重试并重推消息,造成更严重的任务拥堵,无法及时消费,数据库压力增大,SQL执行变慢,导致核心业务受阻。
二、排查指导
1:消息运维平台查看消息的消费状态
了解了问题的现象之后,明确了是生产上线的新业务后开始出现消息积压,通过运维平台可视化功能,查询消息topic对应的堆积数量,重试新增数量(1h)、死信新增数量(1h)。
2:数据管家平台分析SQL性能
在管家平台查询慢SQL情况,定位执行频繁且时间过长的异常SQL。
3:定位业务代码
根据异常SQL和堆积topic定位业务代码,找出代码逻辑问题根因。
三、整改方案
1:消息配置
通过在消息定义基础表中,设置特定服务的触发消息、路由消息、分发消息的topic字段,将其与普通消息隔离
2:增加消息过滤机制
在消息处理之前先通过业务逻辑对消息进行过滤,如果是无效消息或过期消息,则直接跳过业务处理,避免发送消息占用服务资源
3:根据消息优先级设置MQ处理优先级
通过根据消息的重要性和紧急程度,调整消息的优先级,优先处理重要或紧急消息,确保核心业务的及时性。而对于非关键消息,可以演示处理,避免大量非关键消息写入队列影响核心关键消息的消费。