35、机器学习系统的监控、可靠性与推理优化

机器学习系统的监控、可靠性与推理优化

1. 监控的重要性与基础原则

在机器学习(ML)系统中,监控是确保系统满足业务需求的关键环节。数据科学家和业务相关方都应参与到监控过程中,这样能保证系统与业务目标紧密结合。同时,跟踪绝对和相对值有助于全面了解 ML 系统的效果。需要明确的是,为 ML 系统定义的技术指标,本质上是业务关键绩效指标(KPIs)逐步细化的结果,系统的有效性和可持续性会直接或间接影响企业的成功。

2. 不同系统的监控设计文档示例
2.1 Supermegaretail 监控方案
  • 现有基础设施分析 :Supermegaretail 的需求预测是其早期的 ML 项目,缺乏合适的 ML 监控基础设施。不过,通过初步研究,发现了开源 Python 库 Evidently AI(https://github.com/evidentlyai/evidently),它可用于监控模型质量、数据漂移、目标漂移和数据质量等。
  • 日志记录
    • 将模型预测日志存储在面向列的数据库管理系统中,记录每次预测的特征、输出和时间戳,可使用 ClickHouse 等开源工具。
    • 记录基本统计信息,如每秒请求数、资源利用率、错误率、不同百分位的延迟等,使用 Kafka + Prometheus + Grafana 组合,保留最近一个月的数据,用于实时 ML 监控和可视化(https://mng.bz/ZVOR)。
  • 数据质量监控
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值