如何做好业务监控

最新推荐文章于 2025-10-26 09:34:20 发布

原创

最新推荐文章于 2025-10-26 09:34:20 发布 · 4.2k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#业务监控 #监控大盘 #稳定性建设

本文详细介绍了业务监控的重要性、监控指标、监控精度、统计方式以及解决监控痛点的方法。重点关注了硬件层、系统层、应用层和业务层的监控指标，并推荐了秒级和分钟级的精度。此外，还探讨了监控工具如Zabbix、Grafana，并强调了建立有效的监控大盘和报警机制在稳定性建设中的关键作用。

系列文章目录

一、什么是监控？

1.1. 定义

     监控是整个运维乃至整个产品生命周期中最重要的一环，事前及时预警发现故障，事后提供详实的数据用于追查定位问题。

1.2. 目标

实时&持续的反馈系统情况
保证业务持续稳定&安全
如果我们的监控做得很完善，即使出现故障，能第一时间接收到故障报警，在第一时间处理解决，从而保证业务持续性的稳定运行。

引言：
可以从三个方向去考虑：

1、减少故障发生的可能

2、减少故障恢复时间

3、降低故障的外部影响

系统可用性

99.999 5.25 min
99.99 52.5 min
99.9 8.75 hour

二、监控的指标

硬件层(主机)、系统层(容器层)、应用层、业务层；

2.1.指标

硬件层

 服务主机，主机层黄金指标包括：CPU使用率（Total，User，System），CPU load，Memory（total，used，rss），网络流量，Disk-IO count/Traffic（TX，RX），file_node

主机Top 命令使用详解https://blog.youkuaiyun.com/Rylan11/article/details/81608286

系统层(容器层)

容器资源被内核CGroup限制，它的黄金指标与主机系统指标接近。容器黄金指标包括 CPU使用率(Total, User, System), CPU Throttling Time，CPU Throttling Count ，网络流量（TX，RX），Memory（limit，used，rss），Disk-IO count/Traffic（TX，RX）

CPU 压制时间/压制次数，衡量CPU是否达到瓶颈的最直观指标。

参考：
cfs_period_us & cfs_quota_us
https://medium.com/omio-engineering/cpu-limits-and-aggressive-throttling-in-kubernetes-c5b20bd8a718

应用层

  关键的黄金指标包括 （1）响应时间（2）流量/吞吐（3）依赖 错误率/成功率(系

最低0.47元/天解锁文章