24、机器学习模型监控:从基础到挑战与实践

机器学习模型监控:从基础到挑战与实践

1. 监控的基础与重要性

监控在保障系统正常运行和用户体验方面起着关键作用。它主要有两个方面的作用:一是在“出现问题”时,能够可靠地通知相关负责人,例如通过传呼等方式,这对于“维护用户体验”至关重要;二是进行长期趋势分析、容量规划以及全面了解服务范围,通过监控数据可以回答诸如服务是否具有成本效益、是否存在不明显的性能瓶颈、服务延迟与用户在周末和工作日的行为有何关系等问题。

1.1 监控系统与目标系统

要进行监控,需要有监控系统和被监控的目标系统。目标系统会发出一系列带有标识名称的指标(通常是数字),监控系统收集这些指标,并通过聚合(如计算多个实例或机器的总和或比率)或装饰(如在同一数据上添加事件细节)等方式进行转换。这些聚合后的指标用于系统分析、调试和告警。

例如,一个Web服务器会有一个名为 server.requests_total 的指标,表示它收到的请求总数。监控系统通常通过推(push)或拉(pull)的方式获取这些指标,然后将其整理、存储,并可能以时间序列的方式进行处理。不同的监控系统在接收、存储和处理数据等方面会有不同的选择,但数据通常是可查询的,并且很多时候可以通过图形化方式展示,以便我们直观地了解实际情况。

1.2 可观测系统

可观测系统在上述基础上更进一步,它不仅能获取指标的总数,还能获取带有标签的详细数据。例如,除了 server.requests_total ,还可以有 server.requests_total{lang=en} ,表示客户端请求页面以英语渲染的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值