关于机器学习可解释性方面的研究,有位大佬做了一份很好的总结。
Interpretable Machine Learning.
同时国内也有人翻译了中文版 可解释的机器学习_中文版,不过大家条件允许的话还是先看原文把。
想要了解可解释性的详细概念以及具体一些方法的推导和说明的话可以直接看书,本文仅记录使用这些方法的一些情况。
模型无关方法
LR和决策树之类的模型是很好解释的,看LR对应特征的参数以及决策树的划分属性都容易被人们理解;相反一些集成模型和神经网络(CV可以考虑激活图或者Attention,结构化数据就有点麻烦)就不怎么好理解了,所以就有一些和模型无关的,通用的方法提出来了。
PDP
部分依赖图(PDP)是一种分析特征取值发生变化时,利用模型预测概率的变化来反馈特征的重要程度。
比如某特征有A,B两种取值,我们分别把所有样本的取值换成A和B,送入训练好的模型中得到不同取值下样本的平均预测概率就可以做个比较。当然有可能出现这样无法区分的数据。
对于连续属性的话,类似决策树划分属性时操作,为每一个出现的取值做一个计算,最后拟合成一个折线图就是所谓的部分依赖图了。
很让人高兴的就是