基于指标的云基础设施监控
1. 监控概述
监控是为了了解基础设施中各种系统的状态,持续观察情况以发现可能随时间出现的变化和故障。本文提出的是一种去中心化的面向服务的监控解决方案,它是一组开源工具,可在基础设施层面帮助监控和诊断应用环境中的服务可用性问题。该监控解决方案作为流处理引擎实现,类似于具有根本原因分析能力的专家系统。
监控范围广泛,可分为以下几个不同类别:
- 指标(Metrics) :从环境中的节点、服务和接口获取测量值,计算并聚合得到指标。这些指标以图形方式可视化,能深入了解系统的运行状况和性能。数据库需支持用于指标数据归一化和分析的分析功能。例如使用collectd与Graphite、Influxdb、Prometheus等工具进行时间序列数据收集以生成指标图,而非单纯触发警报。
- 事件(Events) :加载和解析日志内容及其他类似日志类型的事件,这些事件存储在基于Lucene的数据库中,并带有多个分类索引。可将其可视化为时间序列数据,也可像事件监控系统一样生成警报。事件从日志文件、服务通知等来源收集,通过过滤器和查询进行可视化,以深入了解系统内的特定问题或行为。Logstash、Heka或Hindsight等属于此类工具,日志处理解决方案需支持大量日志的实时处理。
- 警报(Alarms) :当某些服务出现故障时,此类监控解决方案会发出警报。例如Nagios、Shinken或Sensu等工具。监控中的警报处理事件和可视化,根据配置的规则对收集的事件和指标生成警报。
下面通过表格展示这三种监控类别的特点:
|
基于指标的云监控体系
超级会员免费看
订阅专栏 解锁全文
2074

被折叠的 条评论
为什么被折叠?



