可解释性机器学习——从金融科技视角(1)
内容摘要:可解释性的重要性
1、过程为什么重要
- 尽管机器学习模型表现良好,但单一指标(如分类准确性)是对大多数实际任务的不完整表述。(Doshi-Velez & Kim 2017)。某些任务不仅需要得到预测结果,更需要解释模型是如何得出预测的。
For example,一个人感到不适,想知道:“我为什么感觉这么恶心? ”他了解到,每次吃麦片时,他都会生病。,于是,他更新了自己的心智模型,吃麦片导致了疾病,因此应该避免吃麦片。在信贷自动审批模型工作中,你的主要目标是仅向最终会偿还贷款的人发放贷款。 在这种情况下,其实隐含了一个约束,你不仅要尽量减少贷款违约,而且还有义务防止过拟合,以免因抽样数据的不随机导致对部分特定群体造成歧视。 这是一个额外的约束,是问题表述(以低风险和合规的方式发放贷款)的一部分,但机器学习模型的损失函数不包括该约束。
- 模型犯错误造成后果的严重程度决定对准确性的需求。常常可解释性和预测准确性之间存在一种平衡balance,你需要在两者之间做出选择。(比如说电影推荐系统,极少的错误无关紧要。但在金融领域,信用评估的误判,股价预测的错误会造成严重损失。更恐怖的在于医疗领域、自动驾驶领域,误判的后果不必多说)。
默认情况下,机器学习模型会从训练数据中获取偏差。 这可能造成过拟合,有学者因金融领域使用机器学习产生过拟合,导致了对民众信用的误判,称模型为”歧视代表性不足群体的种族主义者“。 可解释性是一种有用的调试工具,用于检测机器学习模型中的偏差。
- 对过程的解释是人类从机器学习知识的体现。 科学的目标是获取知识,但许多问题都是通过大数据集和黑匣子般的机器学习模型解决的。 大模型本身能成为知识的来源,而不是数据的来源。 可解释性使得提取模型捕