机器学习模型监控:从基础到挑战与实践
1. 监控的基础与重要性
监控在保障系统正常运行和用户体验方面起着关键作用。它主要有两个方面的作用:一是在“出现问题”时,能够可靠地通知相关负责人,例如通过传呼等方式,这对于“维护用户体验”至关重要;二是进行长期趋势分析、容量规划以及全面了解服务范围,通过监控数据可以回答诸如服务是否具有成本效益、是否存在不明显的性能瓶颈、服务延迟与用户在周末和工作日的行为有何关系等问题。
1.1 监控系统与目标系统
要进行监控,需要有监控系统和被监控的目标系统。目标系统会发出一系列带有标识名称的指标(通常是数字),监控系统收集这些指标,并通过聚合(如计算多个实例或机器的总和或比率)或装饰(如在同一数据上添加事件细节)等方式进行转换。这些聚合后的指标用于系统分析、调试和告警。
例如,一个Web服务器会有一个名为 server.requests_total 的指标,表示它收到的请求总数。监控系统通常通过推(push)或拉(pull)的方式获取这些指标,然后将其整理、存储,并可能以时间序列的方式进行处理。不同的监控系统在接收、存储和处理数据等方面会有不同的选择,但数据通常是可查询的,并且很多时候可以通过图形化方式展示,以便我们直观地了解实际情况。
1.2 可观测系统
可观测系统在上述基础上更进一步,它不仅能获取指标的总数,还能获取带有标签的详细数据。例如,除了 server.requests_total ,还可以有 server.requests_total{lang=en} ,表示客户端请求页面以英语渲染的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



