Datadog 监控最佳实践 | 收集正确的数据

最新推荐文章于 2025-06-27 17:35:19 发布

原创

最新推荐文章于 2025-06-27 17:35:19 发布 · 845 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#可观测性 #监控 #运维监控 #监控产品 #Datadog #商业监控 #监控方法论

本文是Datadog“高效监控”系列的第一篇，后面还会有第二篇《针对重要事项发出警报》和《调查性能问题》。

监控数据有多种形式 - 一些系统不断地输出数据，而另一些系统仅在罕见事件发生时才产生数据。有些数据主要用于识别发现问题、有些数据主要用于调查问题。更宽泛地说，监控数据是观察系统内部运行情况的必要条件。

这篇文章介绍了要收集哪些数据以及如何对这些数据进行分类，以便您可以：

对于潜在问题触发有意义的警报
快速调查并找出性能问题的根源

无论您的监控数据采用何种形式，统一的主题都是：

收集数据很便宜，但在需要时没有获得数据可能会很昂贵，因此您应该监测一切，并合理地收集所有有用的数据。

本系列文章源自我们为客户监控大型基础设施的经验。它还借鉴了Brendan Gregg、Rob Ewaschuk 和 Baron Schwartz 的工作。

指标 Metrics

指标是在特定时间点与您的系统相关的值 - 例如，当前登录到 Web 应用程序的用户数量。因此，通常每秒、每分钟或以其他固定时间间隔收集一次指标，以此监控您的系统。

我们的框架中有两类重要的指标：工作指标和资源指标。对于每个软件系统，请考虑哪些工作指标和资源指标是合理可用的，并将它们全部收集起来。

Datadog 监控指标分类 - 工作指标和资源指标

工作指标 Work Metrics

通过度量系统的输出，工作指标可以从顶层视角衡量系统的健康状况。我们可以把工作指标分成四个子类：

吞吐量：度量系统在某个时间段内处理的工作量。吞吐量通常记录为绝对数字。
成功：表示成功执行的工作的百分比。
错误</

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

夜莺开源监控 您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。