监控值班室:
@隔壁老王头 SQL执行耗时时间过长,达到了报警阈值【5000ms】
隔壁老王头:
@监控值班室 少量报警请忽略,批量关注即可。
监控值班室:
@隔壁老王头 订单号【88886666】状态为处理中,是否需要关注?
隔壁老王头:
@监控值班室 请忽略,稍后运营会处理。
如果上面的对话,每天都会高频出现在 QQ、微信之中,你是否会炸毛,尤其是深夜梦正香甜时。
如果上面的报警,你是否会怒火,尤其是当报警邮件撑爆了你的邮箱时。
其实,这就是宁可错杀一千,不可放过一个的监控系统设计理念,千万别怒火。
今天,结合《SRE Google运维解密》,尝试提炼出所有关于监控系统设计的精髓,希望能捕捉到对现有系统有建设性的改进意见。
脑图整理的很详细,若图看不清,想办法放大,下面开始重点讲解。
为什么要做监控?