机器学习系统的监控、可靠性与推理优化
1. 监控的重要性与基础原则
在机器学习(ML)系统中,监控是确保系统满足业务需求的关键环节。数据科学家和业务相关方都应参与到监控过程中,这样能保证系统与业务目标紧密结合。同时,跟踪绝对和相对值有助于全面了解 ML 系统的效果。需要明确的是,为 ML 系统定义的技术指标,本质上是业务关键绩效指标(KPIs)逐步细化的结果,系统的有效性和可持续性会直接或间接影响企业的成功。
2. 不同系统的监控设计文档示例
2.1 Supermegaretail 监控方案
- 现有基础设施分析 :Supermegaretail 的需求预测是其早期的 ML 项目,缺乏合适的 ML 监控基础设施。不过,通过初步研究,发现了开源 Python 库 Evidently AI(https://github.com/evidentlyai/evidently),它可用于监控模型质量、数据漂移、目标漂移和数据质量等。
- 日志记录 :
- 将模型预测日志存储在面向列的数据库管理系统中,记录每次预测的特征、输出和时间戳,可使用 ClickHouse 等开源工具。
- 记录基本统计信息,如每秒请求数、资源利用率、错误率、不同百分位的延迟等,使用 Kafka + Prometheus + Grafana 组合,保留最近一个月的数据,用于实时 ML 监控和可视化(https://mng.bz/ZVOR)。
- 数据质量监控
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



