记一次prometheus监控pod内存使用率错误使用sum函数引发的血案

原创

已于 2022-07-17 16:58:06 修改 · 2.2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#运维 #prometheus #解决方案

于 2022-07-17 16:54:34 首次发布

博客讲述了在Prometheus监控中，由于标签匹配问题导致Pod内存使用率计算错误，进而引发大量Pod误重启的情况。问题源于sum函数在数据重复时导致指标翻倍。根因分析指出，sum函数的使用不当是问题核心。解决方案包括修改计算指标为使用count函数确保数据稳定性，或者改为max函数以最大值为依据。建议在使用Prometheus时注意指标聚合的正确性，避免类似误报问题。

发生背景

pod内存使用率过高需要自动重启pod防止被kill影响线上业务
制定计算规则

首先制定的规则:(container_memory_usage_bytes - container_memory_cache) / memory_limit > 90
container_memory_usage_bytes和container_memory_cache是Cadvisor中采集的数据,和memory_limit不是一个采集器收集上来的,标签不一致没办法计算,所以有了如下改版进行,标签选择使前后的指标的标签一致
进行标签选择之后的规则sum(container_memory_usage_bytes{container!="", container!="POD"} - container_memory_cache{container!="", container!="POD"}) by(env, namespace, pod, container) / on(pod, container, env, namespace) label_replace(label_replace(memory_limit{status=~"Running.*"}, "pod", "$1", "pod_name", "(.+)"), "container", "$1", "container_name", "(.+)") * 100 != +inf > 90
因为进行env, namespace, pod, container标签筛选之后能够确定只有一条指标,所以算出来的数据判断是没有问题的,该计算指标就上线了