这是 MongoDB 监控系列文章的第七篇,前面几篇文章的链接如下:
按照前面系列文章,我们已经采集到 MongoDB 的监控数据了,并且通过 Grafana 和 Nightingale 的仪表盘看到了数据,这一节开始,我们来探索一下 MongoDB 的关键指标,对于未来配置告警规则、排查问题都有帮助。
通过 MongoDB Grafana 仪表盘查看 MongoDB 关键指标
一般仪表盘中每个图表的左上角,会有一个 i 图标,点击这个图标,可以看到这个图表的一些提示信息,这个信息可是非常重要,是制作仪表盘的那个人的经验总结。我们先看看 Grafana 那个仪表盘,看的时候注意看这个提示信息。
mongodb_instance_uptime_seconds
这个指标是 MongoDB 实例的运行时间,这个指标是一个累加值,单位是秒,可以用来判断 MongoDB 实例的运行时间,如果这个值突然变小,说明 MongoDB 服务重启了。有人会创建一个告警规则:如果这个值小于 300,就报警,说明最近 5 分钟内发生过重启。当然了,这么粗暴的告警规则,在新实例刚刚启动的时候,也会报警。
qps
sum(irate(mongodb_op_counters_total{type!="command"}[5m]))
mongodb_op_counters_total 表示总的操作次数,显然是 counter

最低0.47元/天 解锁文章
7876

被折叠的 条评论
为什么被折叠?



