技术人人都是xx_个人渣记录仅为自己搜索用的博客-优快云博客
两套系统(入口,出口结构化监控 + 结构化异常日志):
最大粒度, 业务监控
需要 业务id
稳定性之 监控,报警,定位 架构师该做什么. 偏数据分析视角,智能定位. 2/5/15 of 安全生产_个人渣记录仅为自己搜索用的博客-优快云博客
1. 行为监控系统,秒级接口异常可视化大盘系统. + 小流量动态化拉长时间维度监控. + 体感监控,重试异常 + 业务异常 + 系统异常. 很难涉及到 指标(基础指标,5个,除去成功率就4个.,绝对值衍生指标例如每个耗时区间的成功,失败量),维度; 同比监控,灰度监控(算法如下). 稳定性极限阈值天数预警. 利用维度信息进行定位.
N个维度(全体,接口,组织,服务器,宿主机,docker,集群,地区(滴滴那时候依赖网络,流量快速下降.)). 单维度大盘. 二维度(二维度的总取值=n*m)异常大盘需要手动展开. 可用于雪崩下的原因快速定位.
某个维度下异常数超过5个以后或者50%以上,就不认为是有效异常维度,不展开. 用于快速定位.
雪崩下的定位必须每秒都要有个异常大盘切面.
异常定义: 在一定时间区间内, 总值符合统计, 且上周,昨天,上上周值N个该区间内总值没有较大方差情况下. 当前时间段的值同环比没有较大变化.
有方