故障解决方案
1.如何避免故障的发生
- 服务治理
- 核心接口梳理
- 导入导出迁出独立服务且设置上限
- 限流控制
- 灰度控制
- 慢查优化(接口和sql)
- 异常消息报警或邮件报报警
- 跑批任务高可用-增加限流器
- 写数据幂等性改造
- 熔断、降级
2.怎么快速解决故障
- 监控平台-数据库指标
- 监控平台-JVM指标
- 监控平台-机器指标(看CPU、load、内存、流量、磁盘读写)
- 监控平台-WEB核心接口
- skywalking或cat查看接口调用,以及报错情况
- OOM问题,找运维dump一个站点,且下线该站点
- 增加常用后门操作的小工具
3.故障的预案
- 核心链路熔断、降级
- 灰度控制,关掉灰度
具体实施,例如:
1.相关的人员,有问题,能快速联系相关人员去解决问题
2.如何发现问题,通过钉钉报警或早晨巡检MQ有积压
3.消息积压,一键丢弃
4.预处理,发送消息前一天,超出阈值钉钉报警
2280

被折叠的 条评论
为什么被折叠?



