我们将深入探讨全局模型无关方法。这些方法专注于描述机器学习模型在整体数据集上的平均行为,为我们提供了一种理解模型如何做出预测的宏观视角。
7.1 部分依赖图(Partial Dependence Plots, PDP)
部分依赖图是一种强大的全局模型无关解释工具,它展示了一个或两个特征对模型预测结果的边际效应。通过固定其他特征,PDP揭示了目标与特征之间的线性、单调或更复杂的关系。
7.1.1 如何阅读PDP
PDP通过在特征值的范围内变化来展示模型预测的变化。对于线性回归模型,PDP总是显示线性关系。对于分类问题,PDP显示在不同特征值下某一类别的概率。
7.1.2 PDP的优势与局限
- 优势:PDP直观易懂,能够揭示特征与预测结果之间的复杂关系。
- 局限:当特征之间存在相关性时,PDP可能不准确,因为它假设其他特征的值是随机分布的。
7.2 累积局部效应图(Accumulated Local Effects, ALE)
当特征之间存在相关性时,累积局部效应图提供了一种比PDP更准确的方法来描述特征对预测的影响。ALE通过在条件分布上计算预测变化的平均值来实现这一点。
7.2.1 如何阅读ALE
ALE通过计算特征值在特定范围内的变化对预测结果的影响来工作。与PDP不同,ALE考虑了特征之间的相关性,提供了更准确的特征效应估计。
7.2.2 ALE的优势与局限
- 优势:ALE在特征相关时仍能提供准确的解释,且计算速度通常快于PDP。
- 局限:ALE的计算可能更复杂,且对于高维数据的解释可能不够直观。
7.3 特征交互作用
特征交互作用描述了特征如何共同影响模型的预测。在存在交互作用的情况下,一个特征的效应取决于另一个特征的值。
7.3.1 测量交互作用强度
Friedman的H统计量是一种测量特征之间交互作用强度的方法。它通过比较包含交互作用的模型与不包含交互作用的模型的方差来工作。
7.3.2 H统计量的优势与局限
- 优势:H统计量提供了一个量化的度量,表明特征之间交互作用的强度。
- 局限:H统计量的计算可能非常耗时,且对于大数据集可能不切实际。
7.4 功能分解
功能分解是一种解释技术,它将高维预测函数分解为单个特征效应和交互效应的和,这些都可以被可视化。这种方法是理解其他解释方法的基础。
7.4.1 功能分解的优势与局限
- 优势:功能分解提供了一种理论框架,用于将复杂模型分解为更简单的组成部分。
- 局限:对于高维特征空间,功能分解可能变得计算上不可行,且解释可能变得复杂。
7.5 本章小结
本章介绍了几种全局模型无关方法,包括部分依赖图、累积局部效应图、特征交互作用和功能分解。这些方法帮助我们理解机器学习模型在整体数据集上的行为,并提供了一种量化特征对预测结果影响的方式。