系统监控与自动化支持:保障系统稳定运行
1. 指标(Metrics)
1.1 指标的定义与来源
指标是按时间顺序定期收集的一组数字数据,可从应用程序栈的各个层面获取,包括操作系统和网络层、中间件层(如 Erlang 虚拟机和相关库)以及业务层。
1.2 指标的用途
不同角色的人员使用指标的目的不同:
- 开发人员:利用指标来提高系统的性能和可靠性,以及在问题发生后进行故障排查。
- DevOps 工程师:监控系统以检测异常行为并预防故障。
- 运维人员:通过指标预测趋势和使用高峰,优化硬件成本。
- 营销人员:研究长期用户趋势和用户体验。
1.3 指标的可视化示例
以登录操作为例,可创建不同的计数器来跟踪登录尝试、成功和失败情况,还可细分失败类型,如密码错误、用户未知等。这些指标有助于识别系统的安全问题、监控欺诈行为或评估用户体验。
1.4 指标的类型
| 类型 | 描述 | 示例 |
|---|---|---|
| 数量(Amount) | 具有增量和减量能力的离散或连续值,常见形式为计数器 | 登录尝试次数 |
| 量表(Gauge) | 在特定时间点提供值的计数器 | 正在进行的会话数量、内存或硬盘使用量 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



