机器学习的信任、公平性与性能真相
1. 机器学习模型的信任问题
监督式机器学习是强大的通用黑盒方法,在许多应用中表现出色,其优势在于经验上效果良好。然而,它也存在潜在缺点,即依赖训练数据中的重复模式,而非精心编写的规则进行推理。
1.1 理解预测原因
在一些领域,如医学或法律,人们可能希望理解监督式机器学习模型做出特定预测的原因。但机器学习的设计理念更侧重于提供良好的预测结果,而非解释预测原因。对于简单模型,工程师尚可向非专业人士解释其推理过程;但对于复杂模型,这是一项艰巨的任务。不过,相关研究正在进行,未来情况可能会有所改变。此外,对抗性示例也是一个相关话题,即在图像分类中,通过改变少量像素值,使模型对汽车图片做出狗的预测。
1.2 最坏情况保证
一个好的监督式机器学习模型应具有较小的 Enew,但 Enew 是基于训练和测试数据与实际情况相似的统计假设。即使满足这一假设,也无法保证模型在最坏情况下的预测效果。简单且可解释的模型,如逻辑回归和决策树,可以手动检查以推断最坏情况;而复杂模型,如随机森林和深度学习,很难给出最坏情况的保证,但广泛的测试方案可能会揭示一些潜在问题。
2. 机器学习中的公平性与误差函数
2.1 公平性的多面性
选择误差函数看似是纯粹的技术问题,但实际上可能存在伦理影响。以一个寻找对瑞典大学课程感兴趣人群的机器学习模型为例,该模型对非瑞典人和瑞典人进行测试,结果显示,从误分类误差来看,模型对两组的表现相同,但从假阴性率和假阳性率来看,两组存在明显差异。这表明公平性的衡量没有单一函数,不同应用对公平性的定义不同,如刑事量刑应用中,假阳性率问题可
超级会员免费看
订阅专栏 解锁全文
597

被折叠的 条评论
为什么被折叠?



