WDM 论文阅读笔记：从信息论到表示学习

最新推荐文章于 2026-01-08 16:48:33 发布

原创最新推荐文章于 2026-01-08 16:48:33 发布 · 678 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #笔记 #学习

论文阅读笔记专栏收录该内容

19 篇文章

订阅专栏

Ozair, Sherjil, et al. “Wasserstein dependency measure for representation learning.” Advances in Neural Information Processing Systems 32 (2019).

arxiv：https://arxiv.org/abs/1903.11780
pdf：https://arxiv.org/pdf/1903.11780
html：https://ar5iv.labs.arxiv.org/html/1903.11780

表示学习是机器学习中的重要研究方向，目标是从数据中提取简洁而有用的特征表示。在这篇博客中，我们将围绕一篇引入 Wasserstein 依赖度量 (WDM) 的论文展开，结合经典的对比学习方法（CPC），一步步剖析这篇论文的背景、动机、方法和实验结果。

我们先从信息论的基础知识讲起，包括熵、KL 散度、互信息和 Wasserstein 距离。

文章目录

1 熵、KL 散度、互信息和 Wasserstein 距离

1.1 熵 (Entropy)

熵是衡量随机变量不确定性的核心概念。简单来说，熵越大，随机变量的结果越不可预测。
数学形式：

离散型随机变量 $X$ 的熵：
$-\sum_{x} p(x) \log p(x)$
连续型随机变量 $X$ 的熵：
$-\int p(x) \log p(x) dx$

直观理解：
假设你有一个硬币：

如果硬币是公平的（正反面概率相等），熵最大，因为结果完全不可预测。
如果硬币是偏的（正面概率接近1），熵较小，因为结果更确定。

1.2 KL 散度 (Kullback-Leibler Divergence)

KL散度衡量两个概率分布 $P$ 和 $Q$ 之间的差异。它可以理解为用分布 $Q$ 来近似真实分布 $P$ 时引入的额外不确定性。
数学形式：

离散型：
$D_{KL}(P \parallel Q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)}$
连续型：
$D_{KL}(P \parallel Q) = \int p(x) \log \frac{p(x)}{q(x)} dx$

性质：

$D_{KL}(P \parallel Q) \geq 0$ ，当且仅当 $P = Q$ 时等于0。
KL散度是非对称的，即 $D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P)$ 。

直观理解：
KL 散度关注的是分布的“匹配程度”。比如， $P$ 是硬币的真实分布，而 $Q$ 是预测分布。如果 $Q$ 偏差很大，KL 散度会很高。

1.3 互信息 (Mutual Information)

互信息衡量两个随机变量 $X$ 和 $Y$ 的相关性，描述知道一个变量后能减少另一个变量的不确定性。
数学形式：
$I (X; Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X)$
互信息也可以表示为KL散度的特例：
$D_{KL}(P_{(X,Y)} \parallel P_X \otimes P_Y)$
其中， $P_{(X,Y)}$ 是联合分布， $P_X \otimes P_Y$ 是边缘分布的独立乘积。

直观理解：
互信息是两变量的“共享信息量”。例如， $X$ 是天气， $Y$ 是是否带伞。如果天气完全决定带伞（如下雨必带伞），则互信息很大；如果天气和带伞无关，则互信息为0。

1.4 Wasserstein 距离 (Wasserstein Distance)

Wasserstein 距离是一种用于衡量概率分布之间“地理距离”的方法，它考虑了数据点的空间分布（不像 KL 散度只看概率比）。
数学形式：
$W_1(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \mathbb{E}_{(x, y) \sim \gamma}[\|x - y\|]$
其中 $\Gamma(P,Q)$ 是所有联合分布的集合，其边缘分布为 $P$ 和 $Q$ 。

对偶形式：
Wasserstein 距离也可以通过对偶形式计算：
$W_1(P, Q) = \sup_{\|f\|_L \leq 1} \left( \mathbb{E}_{x \sim P}[f(x)] - \mathbb{E}_{y \sim Q}[f(y)] \right)$
这里 $f$ 是1-Lipschitz函数。

直观理解：
Wasserstein 距离也叫“推土机距离”，它衡量把土堆（ $P$ ）搬到目标位置（ $Q$ ）所需的最小“工作量”。

2 对比学习与 CPC 方法

在表示学习中，对比学习是一种无监督方法，目标是通过比较数据对之间的关系来学习有用的特征表示。CPC（Contrastive Predictive Coding）是经典的对比学习方法。

2.1 CPC 的核心思想

CPC 的目标是通过最大化互信息来学习特征表示。具体来说，它通过一个“找朋友”的游戏来实现：

给定一张图片 $x$ ，选取其一个相关样本（正样本） $y_+$ 和若干无关样本（负样本） $\{y_1^-, y_2^-, \dots\}$ 。
训练一个打分函数 $f (x, y)$ ，要求：
- 对正样本 $x, y_+)$ 的分数尽可能高。
- 对负样本 $x, y^-)$ 的分数尽可能低。

2.2 CPC 的损失函数

CPC 通过 InfoNCE 损失函数最大化互信息的下界：
$\mathcal{L}_{\text{CPC}} = -\mathbb{E} \left[ \log \frac{e^{f(x, y_+)}}{e^{f(x, y_+)} + \sum_{j=1}^{K-1} e^{f(x, y_j^-)}} \right]$

2.3 CPC 的问题

互信息估计的缺陷：当互信息值很高时，估计需要大量负样本，计算代价高。
对微小变化不鲁棒：打分函数 $f (x, y)$ 可能过度关注无关细节。

3 WDM 方法与论文解读

3.1 动机

现有方法基于互信息（如 CPC）在高互信息场景下效果不佳，模型容易忽略部分重要特征。
作者提出用 Wasserstein 依赖度量 (WDM) 替代互信息，衡量数据对 $(x, y)$ 的依赖关系。

3.2 方法总结

WDM 的定义：
WDM 用 Wasserstein 距离替代互信息：
$\text{WDM}(X;Y) = W_1(P_{(X,Y)}, P_X \otimes P_Y)$
它衡量 $X$ 和 $Y$ 的联合分布与独立分布的差异，反映两者的依赖关系。

WPC 方法：
作者提出 Wasserstein Predictive Coding (WPC)，优化以下目标：

主损失（与 CPC 类似）：
$\mathcal{L}_{\text{WPC}} = - \log \frac{e^{f(x, y_+)}}{e^{f(x, y_+)} + \sum_{j=1}^{K-1} e^{f(x, y_j^-)}}$
Lipschitz约束：通过梯度惩罚实现 1-Lipschitz 约束：
$\mathcal{L}_{\text{GP}} = \lambda \cdot \mathbb{E}_{\hat{x}, \hat{y}} \left[ (\|\nabla f(\hat{x}, \hat{y})\|_2 - 1)^2 \right]$
总损失：
$\mathcal{L}_{\text{Total}} = \mathcal{L}_{\text{WPC}} + \mathcal{L}_{\text{GP}}$