SSRE:Google运维解密(笔记)2 监控与告警
1、什么是监控?

2、为什么要监控?
最初我对监控的目的想的比较简单,以为只是监控有没有问题,有问题就发告警。

3、4个黄金指标
后来我了解的稍微多点,就知道,“有没有问题”这个几个字说的太轻飘飘了。
怎么才算有问题,服务挂掉,或者机器挂掉?还是某个cpu,mum满了?
报警的策略下面会说,但是关于指标,本书描述的很清楚。


4、长尾问题
关于长尾问题,最近有接触一点点。
有些指标统计出来,一小部分数据的对应值特别高,导致平均数被拉高不能反应真实的情况。
比如http请求延迟,绝大部分数据都在10ms,但小部分请求不到的可能会达到timeout,500ms,那么这部分会使得平均数非常高,如果以