树集成解释与少标签数据学习
树集成解释
树模型因其可解释性而广受欢迎,但树集成(如装袋法、随机森林或提升法)却失去了这一特性。不过,我们可以采用一些简单的方法来解释树集成学习到的函数。
特征重要性
对于单个决策树 $T$,特征 $k$ 的重要性可以通过以下公式衡量:
$R_k(T) = \sum_{j = 1}^{J - 1} G_jI(v_j = k)$
其中,求和是针对所有非叶节点(内部节点),$G_j$ 是节点 $j$ 处的准确率增益(成本降低),如果节点 $j$ 使用了特征 $k$,则 $v_j = k$。为了得到更可靠的估计,我们可以对集成中的所有树进行平均:
$R_k = \frac{1}{M} \sum_{m = 1}^{M} R_k(T_m)$
计算完这些分数后,我们可以将它们归一化,使最大值为 100%。
例如,在区分 MNIST 数据集中 0 和 8 类数字的分类器中,模型会关注图像中这两类数字不同的部分。在垃圾邮件数据集的分类中,“george”(收件人姓名)、“hp”(他工作的公司)以及字符 “!” 和 “$” 是最重要的特征。
部分依赖图
在确定了最相关的输入特征后,我们可以评估它们对输出的影响。特征 $k$ 的部分依赖图是 $f_k(x_k) = \frac{1}{N} \sum_{n = 1}^{N} f(x_{n, -k}, x_k)$ 与 $x_k$ 的关系图。这意味着我们将除 $k$ 之外的所有特征进行边缘化。对于二分类器,我们可以在绘图前将其转换为对数几率 $\log \frac{p(y = 1|x_k)}{p(y = 0|x_k)}$
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



