机器学习模型可解释性方法及应用实践
1. ICE 图解释及局限性
ICE(Individual Conditional Expectation)图用于展示模型输出随特征值变化的情况。以图 4.17 为例,它展示了最后出生者概率随出生顺序(birthn)增加的 ICE 图,且按对问题 Q1 的回答进行了颜色编码。与长子(女)的 ICE 图相比,最后出生者的 ICE 图变化更多。和长子(女)情况类似,与 Q1 的答案一致性越低,图中的线条越不稳定;但不同的是,无论出生顺序如何,与 Q1 答案一致时,最后出生者的概率更低。
ICE 图存在一些缺点:
- 特征独立性假设 :和 PDP(Partial Dependence Plots)一样,ICE 曲线假设特征之间相互独立,这可能不符合实际情况。
- 特征交互限制 :不能处理两个连续特征或高基数特征之间的交互。例如,能对 Q1 进行颜色编码是因为 Q1 只有六种可能的值。
- 难以确定平均关系 :很难确定特征与目标之间的平均关系,而这正是 PDP 图的优势所在。不过,ICE 图的长处在于寻找特征与目标关系变化中的线索,而非关注其总体情况。
2. 数据集分析与发现
在一个包含 40,000 个测验条目的数据集中,研究旨在确定机器学习能从中发现什么。心理学研究人员想知道能否信任这些数据为研究提供方向,以及机器学习解释能否指出哪些特征和特征值对结果影响最大。
通过 PDP 图发现,年龄和出生顺序的分布存在差异,因为随着年龄增长,中间孩子的比例必然增加。若要使建
超级会员免费看
订阅专栏 解锁全文
7147

被折叠的 条评论
为什么被折叠?



