24、机器学习模型监控：从基础到挑战与实践-优快云博客

本文链接：https://blog.youkuaiyun.com/nice1/article/details/152409117

机器学习模型监控：从基础到挑战与实践

1. 监控的基础与重要性

监控在保障系统正常运行和用户体验方面起着关键作用。它主要有两个方面的作用：一是在“出现问题”时，能够可靠地通知相关负责人，例如通过传呼等方式，这对于“维护用户体验”至关重要；二是进行长期趋势分析、容量规划以及全面了解服务范围，通过监控数据可以回答诸如服务是否具有成本效益、是否存在不明显的性能瓶颈、服务延迟与用户在周末和工作日的行为有何关系等问题。

1.1 监控系统与目标系统

要进行监控，需要有监控系统和被监控的目标系统。目标系统会发出一系列带有标识名称的指标（通常是数字），监控系统收集这些指标，并通过聚合（如计算多个实例或机器的总和或比率）或装饰（如在同一数据上添加事件细节）等方式进行转换。这些聚合后的指标用于系统分析、调试和告警。

例如，一个Web服务器会有一个名为 server.requests_total 的指标，表示它收到的请求总数。监控系统通常通过推（push）或拉（pull）的方式获取这些指标，然后将其整理、存储，并可能以时间序列的方式进行处理。不同的监控系统在接收、存储和处理数据等方面会有不同的选择，但数据通常是可查询的，并且很多时候可以通过图形化方式展示，以便我们直观地了解实际情况。