监控值班室:
@隔壁老王头 SQL执行耗时时间过长,达到了报警阈值【5000ms】
隔壁老王头:
@监控值班室 少量报警请忽略,批量关注即可。
监控值班室:
@隔壁老王头 订单号【88886666】状态为处理中,是否需要关注?
隔壁老王头:
@监控值班室 请忽略,稍后运营会处理。
如果上面的对话,每天都会高频出现在 QQ、微信之中,你是否会炸毛,尤其是深夜梦正香甜时。
如果上面的报警,你是否会怒火,尤其是当报警邮件撑爆了你的邮箱时。
其实,这就是宁可错杀一千,不可放过一个的监控系统设计理念,千万别怒火。
今天,结合《SRE Google运维解密》,尝试提炼出所有关于监控系统设计的精髓,希望能捕捉到对现有系统有建设性的改进意见。

脑图整理的很详细,若图看不清,想办法放大,下面开始重点讲解。

为什么要做监控?

在远程办公的当下,你所负责的系统,能正常提供服务显得尤其重要。倘若没有一套监控机制,犹如系统在线上裸奔,时不时需要靠人肉去判断系统是不是崩掉了

最低0.47元/天 解锁文章
1459

被折叠的 条评论
为什么被折叠?



