43、基于指标的云基础设施监控

基于指标的云监控体系

redis7keeper

于 2025-09-15 10:28:34 发布

阅读量6

点赞数

CC 4.0 BY-SA版权

分类专栏： P2P与云计算前沿探析文章标签：指标事件警报

本文链接：https://blog.youkuaiyun.com/redis7keeper/article/details/154177132

P2P与云计算前沿探析专栏收录该内容

89 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于指标的云基础设施监控

1. 监控概述

监控是为了了解基础设施中各种系统的状态，持续观察情况以发现可能随时间出现的变化和故障。本文提出的是一种去中心化的面向服务的监控解决方案，它是一组开源工具，可在基础设施层面帮助监控和诊断应用环境中的服务可用性问题。该监控解决方案作为流处理引擎实现，类似于具有根本原因分析能力的专家系统。

监控范围广泛，可分为以下几个不同类别：
- 指标（Metrics） ：从环境中的节点、服务和接口获取测量值，计算并聚合得到指标。这些指标以图形方式可视化，能深入了解系统的运行状况和性能。数据库需支持用于指标数据归一化和分析的分析功能。例如使用collectd与Graphite、Influxdb、Prometheus等工具进行时间序列数据收集以生成指标图，而非单纯触发警报。
- 事件（Events） ：加载和解析日志内容及其他类似日志类型的事件，这些事件存储在基于Lucene的数据库中，并带有多个分类索引。可将其可视化为时间序列数据，也可像事件监控系统一样生成警报。事件从日志文件、服务通知等来源收集，通过过滤器和查询进行可视化，以深入了解系统内的特定问题或行为。Logstash、Heka或Hindsight等属于此类工具，日志处理解决方案需支持大量日志的实时处理。
- 警报（Alarms） ：当某些服务出现故障时，此类监控解决方案会发出警报。例如Nagios、Shinken或Sensu等工具。监控中的警报处理事件和可视化，根据配置的规则对收集的事件和指标生成警报。

下面通过表格展示这三种监控类别的特点：
|