机器学习模型评估与可解释性
1. 模型性能与实用价值
在评估机器学习模型时,仅看模型性能提升的百分比可能并不足够。例如,MAP提升1%可能不足以证明将机器学习模型投入生产比使用简单启发式规则更有价值。因此,将模型性能的提升转化为模型的实用价值至关重要。
实用价值可以是货币形式,也可以对应其他效用衡量标准,如更好的搜索结果、更早的疾病检测或因提高制造效率而减少的浪费。在决定是否部署模型时,实用价值很有用,因为部署或更改生产模型在可靠性和错误预算方面总是有一定成本。
以图像分类模型为例,如果该模型用于预填充订单表单,我们可以计算出1%的性能提升将使每天减少20个弃单,这对应着一定的货币价值。如果这个价值超过了站点可靠性工程团队设定的阈值,我们就会部署该模型。
在自行车租赁问题中,也可以使用模型来衡量对业务的影响。例如,基于在动态定价解决方案中使用该模型,我们可以计算出自行车可用性的增加或利润的增加。
2. 可解释预测设计模式
可解释预测设计模式通过让用户了解模型如何以及为何做出某些预测,来增加用户对机器学习系统的信任。虽然决策树等模型本质上是可解释的,但深度神经网络的架构使其固有的难以解释。对于所有模型,能够解释预测结果有助于理解影响模型行为的特征组合。
2.1 问题
在评估机器学习模型是否准备好投入生产时,准确率、精确率、召回率和均方误差等指标只能说明一部分情况。它们提供了模型预测相对于测试集中真实值的准确程度的数据,但无法说明模型为何做出这些预测。
在许多机器学习场景中,用户可能会犹豫是否直接接受模型的预测结果。例如,一个从视网膜图像预测糖尿病视网膜病变
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



