8、监控指标的直方图、SLO 及成本控制

最新推荐文章于 2025-10-03 13:53:44 发布

omega

最新推荐文章于 2025-10-03 13:53:44 发布

阅读量39

点赞数

CC 4.0 BY-SA版权

分类专栏： Java微服务SRE：构建可靠系统的指南文章标签：监控指标直方图 SLO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/omega/article/details/149765318

Java微服务SRE：构建可靠系统的指南专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

监控指标的直方图、SLO 及成本控制

在监控系统中，指标通常以聚合形式呈现。单个时间测量值不会直接发送到监控系统，否则指标成本将随吞吐量变化而不固定。为解决这一问题，我们可以使用直方图来近似表示这些单个时间测量值的分布情况。

直方图

直方图的基本原理

直方图将可能的时间范围划分为一系列连续且不重叠的桶（bucket），每个桶记录落入该范围的单个时间测量值的数量。桶的大小通常不相等，因为我们往往更关注某些特定范围内的细节。例如，对于 API 端点的延迟直方图，我们更关心 1ms、10ms 和 100ms 延迟之间的区别，而不是 40s 和 41s 延迟的区别。因此，在预期值附近的延迟桶会更精细。

通过将所有单个时间测量值累积到桶中，并控制桶的数量，我们可以在保持固定成本的同时保留分布的形状。

直方图在监控系统中的存储

在监控系统的存储中，直方图表示为一系列计数器。以 Prometheus 为例，这些计数器有一个特殊的标签 le ，表示该指标是小于或等于标签值（以秒为单位）的所有样本的计数。以下是一个示例表格：
| Metric name | Values |
| — | — |
| http_server_requests_seconds_bucket{status=200,le=0.1} | [10,10,12,15] |
| http_server_requests_seconds_bucket{status=200,le=0.2} | [20,20,24,26] |
| http_server_requests_seconds_b

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。