如何做好业务监控

本文详细介绍了业务监控的重要性、监控指标、监控精度、统计方式以及解决监控痛点的方法。重点关注了硬件层、系统层、应用层和业务层的监控指标,并推荐了秒级和分钟级的精度。此外,还探讨了监控工具如Zabbix、Grafana,并强调了建立有效的监控大盘和报警机制在稳定性建设中的关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

系列文章目录

一、什么是监控?

1.1. 定义

     监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。

1.2. 目标

  1. 实时&持续的反馈系统情况

  2. 保证业务持续稳定&安全
    如果我们的监控做得很完善,即使出现故障,能第一时间接收到故障报警,在第一时间处理解决,从而保证业务持续性的稳定运行。

引言:
可以从三个方向去考虑:

1、减少故障发生的可能

2、减少故障恢复时间

3、降低故障的外部影响

系统可用性

99.999 5.25 min
99.99 52.5 min
99.9 8.75 hour

二、监控的指标

硬件层(主机)、系统层(容器层)、应用层、业务层;

2.1.指标

硬件层
 服务主机,主机层黄金指标包括:CPU使用率(Total,User,System),CPU load,Memory(total,used,rss),网络流量,Disk-IO count/Traffic(TX,RX),file_node

主机Top 命令使用详解https://blog.youkuaiyun.com/Rylan11/article/details/81608286

系统层(容器层)
容器资源被内核CGroup限制,它的黄金指标与主机系统指标接近。容器黄金指标包括 CPU使用率(Total, User, System), CPU Throttling Time,CPU Throttling Count ,网络流量(TX,RX),Memory(limit,used,rss),Disk-IO count/Traffic(TX,RX)

CPU 压制时间/压制次数,衡量CPU是否达到瓶颈的最直观指标。

参考:
cfs_period_us & cfs_quota_us
https://medium.com/omio-engineering/cpu-limits-and-aggressive-throttling-in-kubernetes-c5

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值