系列文章目录
文章目录
一、什么是监控?
1.1. 定义
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。
1.2. 目标
-
实时&持续的反馈系统情况
-
保证业务持续稳定&安全
如果我们的监控做得很完善,即使出现故障,能第一时间接收到故障报警,在第一时间处理解决,从而保证业务持续性的稳定运行。
引言:
可以从三个方向去考虑:
1、减少故障发生的可能
2、减少故障恢复时间
3、降低故障的外部影响
系统可用性
99.999 5.25 min
99.99 52.5 min
99.9 8.75 hour
二、监控的指标
硬件层(主机)、系统层(容器层)、应用层、业务层;
2.1.指标
硬件层
服务主机,主机层黄金指标包括:CPU使用率(Total,User,System),CPU load,Memory(total,used,rss),网络流量,Disk-IO count/Traffic(TX,RX),file_node
主机Top 命令使用详解https://blog.youkuaiyun.com/Rylan11/article/details/81608286
系统层(容器层)
容器资源被内核CGroup限制,它的黄金指标与主机系统指标接近。容器黄金指标包括 CPU使用率(Total, User, System), CPU Throttling Time,CPU Throttling Count ,网络流量(TX,RX),Memory(limit,used,rss),Disk-IO count/Traffic(TX,RX)
CPU 压制时间/压制次数,衡量CPU是否达到瓶颈的最直观指标。
参考:
cfs_period_us & cfs_quota_us
https://medium.com/omio-engineering/cpu-limits-and-aggressive-throttling-in-kubernetes-c5