机器学习项目的质量评估与模型可解释性
1. 机器学习项目的质量评估方法
在机器学习(ML)项目中,质量保证(QA)的最终目标是基于真实世界的数据评估预测结果,避免解决方案创建者的短视视角,尽可能消除对解决方案效用定性评估中的偏差。下面介绍三种预生产阶段的QA工作形式。
1.1 有偏测试
内部测试相对容易,通常是我们评估项目结果时会想到的方式。其过程一般包括:
- 对新的(建模过程中未见过的)数据生成预测。
- 分析新预测的分布和统计特性。
- 随机抽取预测样本并进行定性判断。
- 将手工制作的样本数据(或适用情况下的自己的账户数据)输入模型。
前两个步骤对于评估模型有效性是有效的,且无偏差,应该执行。而后两个步骤存在危险,最后一个步骤尤其危险。
例如,在音乐播放列表生成系统中,数据科学(DS)团队成员都是古典音乐爱好者。他们在定性验证过程中,主要检查播放列表生成器在古典音乐领域的质量,根据自己喜欢的音乐生成收听历史,调整实现以优化结果,并不断迭代验证过程。当他们认为解决方案在捕捉主题和音调相关的相似音乐方面表现出色时,询问同事的意见。结果发现,该解决方案针对DS团队的音乐偏好和知识进行了优化,对于现代另类摇滚爱好者(如他们的数据仓库工程师朋友Connor)来说效果很差。为了改进实现,DS团队可能需要进行大量调整,引入额外特征来满足Connor的音乐品味。但对于其他数百种音乐流派,情况又如何呢?
这种内部团队偏差问题可能存在于任何ML项目中。DS团队对数据的细微差别了解有限,通常无法深入理解数据的复杂潜在关系以及每个关系与业务的关联。因此,在QA过程中,让公司中最了解项目解决的用
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



