机器学习中的数据管理与监控反馈
1. 自动化系统与启动速率
借助自动化系统,能够显著提升启动速率。有了足够的信心,就可以依靠自动化系统来完成相关操作,从而加快整个流程。
2. 监控与反馈循环
对于机器学习系统而言,了解其正常或异常运行的信息是有效且可靠运行的关键。以下是监控的几个关键类别:
- 系统健康(黄金信号) :这与非机器学习信号并无不同。将端到端系统视为数据摄取、处理和服务系统,并进行相应监控。例如,检查进程是否运行、是否有进展、是否有新数据到来等。不能因机器学习的复杂性而忽略基础,“黄金信号”方法的核心就是找到能代表系统整体行为的通用、高级指标。
- 基本模型健康(通用机器学习信号) :检查基本模型健康指标类似于检查系统健康。它不需要特别复杂的操作,也不与特定领域紧密耦合,但包含了关于建模系统的基本和代表性事实。例如,新模型是否符合预期大小、能否无错误地加载到系统中。关键标准是在监控时是否需要了解模型内容,如果不需要,那就是基本模型健康监控。这种无上下文的方法具有很大价值。
- 模型质量(特定领域信号) :监控和衡量模型质量是最困难的。在与操作相关的模型质量问题和模型质量改进机会之间没有明确界限。例如,网站上针对购买针头而非纱线的用户推荐不佳,这可能是改进模型的机会,也可能是需要立即响应的紧急事件,这取决于具体情况。对于大多数SRE来说,这是机器学习系统中最难处理的方面,因为没有客观的“足够好”的模型质量衡量标准,而且这是一个难以衡量的多维空间。最终,产品和业务领导者需要建立一些现实世界的指标,以表明模型是否符合他们的要求,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



