本文是Datadog“高效监控”系列的第一篇,后面还会有第二篇《针对重要事项发出警报》和《调查性能问题》。
监控数据有多种形式 - 一些系统不断地输出数据,而另一些系统仅在罕见事件发生时才产生数据。有些数据主要用于识别发现问题、有些数据主要用于调查问题。更宽泛地说,监控数据是观察系统内部运行情况的必要条件。
这篇文章介绍了要收集哪些数据以及如何对这些数据进行分类,以便您可以:
- 对于潜在问题触发有意义的警报
- 快速调查并找出性能问题的根源
无论您的监控数据采用何种形式,统一的主题都是:
收集数据很便宜,但在需要时没有获得数据可能会很昂贵,因此您应该监测一切,并合理地收集所有有用的数据。
本系列文章源自我们为客户监控大型基础设施的经验。它还借鉴了Brendan Gregg、Rob Ewaschuk 和 Baron Schwartz 的工作。
指标 Metrics
指标是在特定时间点与您的系统相关的值 - 例如,当前登录到 Web 应用程序的用户数量。因此,通常每秒、每分钟或以其他固定时间间隔收集一次指标,以此监控您的系统。
我们的框架中有两类重要的指标:工作指标和资源指标。对于每个软件系统,请考虑哪些工作指标和资源指标是合理可用的,并将它们全部收集起来。

工作指标 Work Metrics
通过度量系统的输出,工作指标可以从顶层视角衡量系统的健康状况。我们可以把工作指标分成四个子类:
- 吞吐量:度量系统在某个时间段内处理的工作量。吞吐量通常记录为绝对数字。
- 成功:表示成功执行的工作的百分比。
- 错误</

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



