- 提高可靠性的唯一可靠的方法论是建立一个基线(baseline),同时不断跟踪改变。
- 消息系统
(a)消息聚合:能更好地消除重复报警,避免重复性工作。
(b)加标签:
(c)分析:包括计数和基本的汇总统计报告;环比。找到影响更广泛的问题。
读书笔记(SRE:Google运维解密):第16章 跟踪故障
最新推荐文章于 2022-07-22 20:00:00 发布
546
453
676
514

被折叠的 条评论
为什么被折叠?