如何以人性化的方式解释你的模型
可直接在橱窗里购买,或者到文末领取优惠后购买:
数据科学家职责的一个重要部分是解释模型预测。通常,接受解释的人不是技术人员。如果你开始谈论成本函数、超参数或 p 值,你将会遇到茫然的表情。我们需要将这些技术概念转化为外行人能理解的术语。这个过程可能比构建模型本身更具挑战性。
我们将探索如何给出人性化的解释。我们将通过讨论良好解释的一些关键特征来做到这一点。重点将放在解释个别预测上。最后,我们将通过使用「SHAP 值」解释模型来应用其中的一些知识。我们将看到,当你想要给出人性化的解释时,SHAP 非常有用。
本地解释与全球解释
在深入讨论之前,让我们先讨论一下你要解释什么以及向谁解释。作为一名数据科学家,你可能需要与各种各样的人沟通。这包括同事、监管者或客户。这些人的技术专长水平各不相同。因此,你需要根据他们的专业知识调整解释的水平。
在某些情况下,你可能会被要求解释整个模型。我们称之为全局解释。我们希望了解模型总体上捕捉到了哪些趋势。我们可能需要回答诸如“哪些特征最重要?”或“特征 X 与目标变量有什么关系?”之类的问题。
在其他情况下,我们需要给出局部解释。这就是我们解释单个模型预测的时候。事实上,我们通常必须解释由模型预测得出的决策。这些解释也可以回答诸如“我们为什么拒绝这个贷款申请?”或“为什么给我这个电影推荐?”之类的问题。
与同事或监管者交谈时,你可能需要给出更多技术性解释。相比之下,客户会期望更简单的解释。你也不太可能需要向客户提供全面的解释。这是因为他们通常只关心对他们个人有影响的决定。我们将重点关注这种情况。即向非技术人员解释个别预测。
良好解释的特征
当我们谈论一个好的解释时,我们指的是一个容易被接受的解释。换句话说,它应该让听众相信一个决定是正确的。要给出这样的解释,你需要考虑一些关键方面。你可以在图 1 中看到这些方面的摘要。在本节的其余部分,我们将深入讨论每一个方面。
真实的
这似乎很明显,但一个好的解释应该是真实的。当你考虑我们正在解释的内容时,这可能比你想象的要难。也就是说,我们正在对模型预测给出解释。问题是这些预测可能是不正确的。例如,我们的模型可能过度拟合。这意味着预测可能反映了已建模的噪声。对这些预测的解释不会反映数据中真正的潜在关系。
在给出解释时,我们需要考虑我们的模型如何很好地代表现实。我们可以通过评估模型的性能来做到这一点。例如使用交叉验证准确率。即使总体表现良好,一些预测也可能比其他预测更不确定。例如,逻辑回归预测的概率约为 0.5。在你的解释中,我们可能想提及这种不确定性。
针对目标受众
措辞方式很重要。我们拒绝你的贷款是因为 — “你是加密货币交易员”、“你从事高风险行业”或“你的收入太不稳定”。这些都是相同的原因,只是措辞不同。某些措辞方式可以更好地表达你的观点。有些人可能还会觉得某些方式令人反感。