【文献笔记】概念白化 - Concept whitening for interpretable image recognition

最新推荐文章于 2025-12-15 12:15:10 发布

原创

最新推荐文章于 2025-12-15 12:15:10 发布 · 577 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #机器学习 #深度学习

本文介绍了ConceptWhitening(CW)技术，这是一种用于深度神经网络的模块，旨在提高模型的可解释性。CW通过将隐空间解耦合并赋予概念意义，使网络能够在保持性能的同时增加透明度。文章详细阐述了概念在隐空间中的表征、白化算法及其目标坐标系的构建，以及CW模块的训练和更新策略，强调了CW如何帮助理解和解析模型决策过程。

参考文献：Chen, Z., Bei, Y. & Rudin, C. Concept whitening for interpretable image recognition. Nat Mach Intell 2, 772–782 (2020). https://doi.org/10.1038/s42256-020-00265-z
项目代码链接：https://github.com/zhiCHEN96/ConceptWhitening

1. 概括

这篇文章提出了一个叫做Concept Whitening(CW)的模块，翻译作“概念白化”。CW模块能够将深度神经网络的隐空间解耦合，并且赋予每个维度一个人为定义的“概念”。加入了CW模块的深度神经网络在性能上没有很大的差别，但是具有了更好的可解释性。

2. 概念 Concept

所谓的概念，可以理解成原始数据当中提取出来的初级特征。例如，对于一个图片场景分类的任务，终极的特征是图片当中的场景，而初级特征可以是图片当中所包含的物品、人物等。理论上来说，根据一张图片中出现的物品种类，是可以推测出图片当中的场景的。我们把这种初级特征，就叫做“概念”。本篇文献的一个假设就是，经过学习后的深度神经，可以提取出原始数据中的“概念”，并根据所提取出的“概念”进行分类任务。也就是如下图所示：
深度神经网络提取“概念”

3.概念在隐空间中的表征

假设我们有这样一个深度神经网络函数 $f$ ，它在 $X=Rn\mathcal{X}=\mathbb{R}^n$ 上有定义，它的值分布在 $Y=Rm\mathcal{Y}=\mathbb{R}^m$ 。现在我们把这个网络拆分成浅层和深层部分： $f=g∘Φf=g\circ\Phi$ ，其中 $Φ\Phi$ 是浅层部分， $g$ 是深层部分。那么我们将会得到一个新的空间： $Z=Φ(X)\mathcal{Z}=\Phi(\mathcal{X})$ （严格来说，应该是 $Φ(X)∈Z\Phi(\mathcal{X})\in\mathcal{Z}$ ，因为 $Φ(X)\Phi(\mathcal{X})$ 不一定能够铺满整个 $Z\mathcal{Z}$ 空间）。这个空间是 $X\mathcal{X}$ 变换到 $Y\mathcal{Y}$ 的一个中间态，我们称其为隐空间。再接下来的讨论里面，我们假设 $dim(Z)=ddim(\mathcal{Z})=d$ .

现在有这样一个分类器训练问题，即给定一批样本 $xi,yi}i=1N\mathcal{D}=\{x_i,y_i\}_{i=1}^N$ ，其中 $xi∈Xx_i\in\mathcal{X}$ ，而 $y_i$ 是表示类别序号的整数，一共有 $M$ 种类别。要求通过这些样本，将神经网络函数 $fθf_\theta$ 训练成为一个分类器。我们首先假设，所有的 $x_i$ ，都是 $X\mathcal{X}$ 空间上的概率密度分布 $p (x)$ 的采样。而对于所有的 $yi=j∈[1,M]y_i=j\in[1,M]$ ， $x_i$ 都是 $X\mathcal{X}$ 空间上的类条件概率密度分布 $p_{c_j}(x)=p(x|c_j)$ 的采样。

现在我们人为的规定出 $k$ 个概念( $k < d$ )，分别是 $c_1,...,c_k$ . 我们按照数据是否含有对应的概念，从集合 ${x_i\}_{i=1}^N$ 里抽取元素，构造出 $k$ 个子集 $X_1,X_2,...,X_k$ . 其中对于任意 $x_i$ ，若 $x_i$ 含有概念 $c_j$ ，则 $xi∈Xjx_i\in X_j$ ，否则 $xi∉Xjx_i\notin X_j$ .