Ozair, Sherjil, et al. “Wasserstein dependency measure for representation learning.” Advances in Neural Information Processing Systems 32 (2019).
- arxiv:https://arxiv.org/abs/1903.11780
- pdf:https://arxiv.org/pdf/1903.11780
- html:https://ar5iv.labs.arxiv.org/html/1903.11780
表示学习是机器学习中的重要研究方向,目标是从数据中提取简洁而有用的特征表示。在这篇博客中,我们将围绕一篇引入 Wasserstein 依赖度量 (WDM) 的论文展开,结合经典的对比学习方法(CPC),一步步剖析这篇论文的背景、动机、方法和实验结果。
我们先从信息论的基础知识讲起,包括熵、KL 散度、互信息和 Wasserstein 距离。
文章目录
1 熵、KL 散度、互信息和 Wasserstein 距离
1.1 熵 (Entropy)
熵是衡量随机变量不确定性的核心概念。简单来说,熵越大,随机变量的结果越不可预测。
数学形式:
- 离散型随机变量
X
X
X 的熵:
H ( X ) = − ∑ x p ( x ) log p ( x ) H(X) = -\sum_{x} p(x) \log p(x) H(X)=−x∑p(x)logp(x) - 连续型随机变量
X
X
X 的熵:
H ( X ) = − ∫ p ( x ) log p ( x ) d x H(X) = -\int p(x) \log p(x) dx H(X)=−∫p(x)logp(x)dx
直观理解:
假设你有一个硬币:
- 如果硬币是公平的(正反面概率相等),熵最大,因为结果完全不可预测。
- 如果硬币是偏的(正面概率接近1),熵较小,因为结果更确定。
1.2 KL 散度 (Kullback-Leibler Divergence)
KL散度衡量两个概率分布
P
P
P 和
Q
Q
Q 之间的差异。它可以理解为用分布
Q
Q
Q 来近似真实分布
P
P
P 时引入的额外不确定性。
数学形式:
- 离散型:
D K L ( P ∥ Q ) = ∑ x p ( x ) log p ( x ) q ( x ) D_{KL}(P \parallel Q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)} DKL(P∥Q)=x∑p(x)logq(x)p(x) - 连续型:
D K L ( P ∥ Q ) = ∫ p ( x ) log p ( x ) q ( x ) d x D_{KL}(P \parallel Q) = \int p(x) \log \frac{p(x)}{q(x)} dx DKL(P∥Q)=∫p(x)logq(x)p(x)dx
性质:
- D K L ( P ∥ Q ) ≥ 0 D_{KL}(P \parallel Q) \geq 0 DKL(P∥Q)≥0,当且仅当 P = Q P = Q P=Q 时等于0。
- KL散度是非对称的,即 D K L ( P ∥ Q ) ≠ D K L ( Q ∥ P ) D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P) DKL(P∥Q)=DKL(Q∥P)。
直观理解:
KL 散度关注的是分布的“匹配程度”。比如,
P
P
P 是硬币的真实分布,而
Q
Q
Q 是预测分布。如果
Q
Q
Q 偏差很大,KL 散度会很高。
1.3 互信息 (Mutual Information)
互信息衡量两个随机变量
X
X
X 和
Y
Y
Y 的相关性,描述知道一个变量后能减少另一个变量的不确定性。
数学形式:
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)
I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
互信息也可以表示为KL散度的特例:
I
(
X
;
Y
)
=
D
K
L
(
P
(
X
,
Y
)
∥
P
X
⊗
P
Y
)
I(X;Y) = D_{KL}(P_{(X,Y)} \parallel P_X \otimes P_Y)
I(X;Y)=DKL(P(X,Y)∥PX⊗PY)
其中,
P
(
X
,
Y
)
P_{(X,Y)}
P(X,Y) 是联合分布,
P
X
⊗
P
Y
P_X \otimes P_Y
PX⊗PY 是边缘分布的独立乘积。
直观理解:
互信息是两变量的“共享信息量”。例如,
X
X
X 是天气,
Y
Y
Y 是是否带伞。如果天气完全决定带伞(如下雨必带伞),则互信息很大;如果天气和带伞无关,则互信息为0。
1.4 Wasserstein 距离 (Wasserstein Distance)
Wasserstein 距离是一种用于衡量概率分布之间“地理距离”的方法,它考虑了数据点的空间分布(不像 KL 散度只看概率比)。
数学形式:
W
1
(
P
,
Q
)
=
inf
γ
∈
Γ
(
P
,
Q
)
E
(
x
,
y
)
∼
γ
[
∥
x
−
y
∥
]
W_1(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \mathbb{E}_{(x, y) \sim \gamma}[\|x - y\|]
W1(P,Q)=γ∈Γ(P,Q)infE(x,y)∼γ[∥x−y∥]
其中
Γ
(
P
,
Q
)
\Gamma(P,Q)
Γ(P,Q) 是所有联合分布的集合,其边缘分布为
P
P
P 和
Q
Q
Q。
对偶形式:
Wasserstein 距离也可以通过对偶形式计算:
W
1
(
P
,
Q
)
=
sup
∥
f
∥
L
≤
1
(
E
x
∼
P
[
f
(
x
)
]
−
E
y
∼
Q
[
f
(
y
)
]
)
W_1(P, Q) = \sup_{\|f\|_L \leq 1} \left( \mathbb{E}_{x \sim P}[f(x)] - \mathbb{E}_{y \sim Q}[f(y)] \right)
W1(P,Q)=∥f∥L≤1sup(Ex∼P[f(x)]−Ey∼Q[f(y)])
这里
f
f
f 是1-Lipschitz函数。
直观理解:
Wasserstein 距离也叫“推土机距离”,它衡量把土堆(
P
P
P)搬到目标位置(
Q
Q
Q)所需的最小“工作量”。
2 对比学习与 CPC 方法
在表示学习中,对比学习是一种无监督方法,目标是通过比较数据对之间的关系来学习有用的特征表示。CPC(Contrastive Predictive Coding)是经典的对比学习方法。
2.1 CPC 的核心思想
CPC 的目标是通过最大化互信息来学习特征表示。具体来说,它通过一个“找朋友”的游戏来实现:
- 给定一张图片 x x x,选取其一个相关样本(正样本) y + y_+ y+ 和若干无关样本(负样本) { y 1 − , y 2 − , … } \{y_1^-, y_2^-, \dots\} {y1−,y2−,…}。
- 训练一个打分函数
f
(
x
,
y
)
f(x, y)
f(x,y),要求:
- 对正样本 ( x , y + ) (x, y_+) (x,y+) 的分数尽可能高。
- 对负样本 ( x , y − ) (x, y^-) (x,y−) 的分数尽可能低。
2.2 CPC 的损失函数
CPC 通过 InfoNCE 损失函数最大化互信息的下界:
L
CPC
=
−
E
[
log
e
f
(
x
,
y
+
)
e
f
(
x
,
y
+
)
+
∑
j
=
1
K
−
1
e
f
(
x
,
y
j
−
)
]
\mathcal{L}_{\text{CPC}} = -\mathbb{E} \left[ \log \frac{e^{f(x, y_+)}}{e^{f(x, y_+)} + \sum_{j=1}^{K-1} e^{f(x, y_j^-)}} \right]
LCPC=−E[logef(x,y+)+∑j=1K−1ef(x,yj−)ef(x,y+)]
2.3 CPC 的问题
- 互信息估计的缺陷:当互信息值很高时,估计需要大量负样本,计算代价高。
- 对微小变化不鲁棒:打分函数 f ( x , y ) f(x, y) f(x,y) 可能过度关注无关细节。
3 WDM 方法与论文解读
3.1 动机
- 现有方法基于互信息(如 CPC)在高互信息场景下效果不佳,模型容易忽略部分重要特征。
- 作者提出用 Wasserstein 依赖度量 (WDM) 替代互信息,衡量数据对 ( x , y ) (x, y) (x,y) 的依赖关系。
3.2 方法总结
WDM 的定义:
WDM 用 Wasserstein 距离替代互信息:
WDM
(
X
;
Y
)
=
W
1
(
P
(
X
,
Y
)
,
P
X
⊗
P
Y
)
\text{WDM}(X;Y) = W_1(P_{(X,Y)}, P_X \otimes P_Y)
WDM(X;Y)=W1(P(X,Y),PX⊗PY)
它衡量
X
X
X 和
Y
Y
Y 的联合分布与独立分布的差异,反映两者的依赖关系。
WPC 方法:
作者提出 Wasserstein Predictive Coding (WPC),优化以下目标:
- 主损失(与 CPC 类似):
L WPC = − log e f ( x , y + ) e f ( x , y + ) + ∑ j = 1 K − 1 e f ( x , y j − ) \mathcal{L}_{\text{WPC}} = - \log \frac{e^{f(x, y_+)}}{e^{f(x, y_+)} + \sum_{j=1}^{K-1} e^{f(x, y_j^-)}} LWPC=−logef(x,y+)+∑j=1K−1ef(x,yj−)ef(x,y+) - Lipschitz约束:通过梯度惩罚实现 1-Lipschitz 约束:
L GP = λ ⋅ E x ^ , y ^ [ ( ∥ ∇ f ( x ^ , y ^ ) ∥ 2 − 1 ) 2 ] \mathcal{L}_{\text{GP}} = \lambda \cdot \mathbb{E}_{\hat{x}, \hat{y}} \left[ (\|\nabla f(\hat{x}, \hat{y})\|_2 - 1)^2 \right] LGP=λ⋅Ex^,y^[(∥∇f(x^,y^)∥2−1)2] - 总损失:
L Total = L WPC + L GP \mathcal{L}_{\text{Total}} = \mathcal{L}_{\text{WPC}} + \mathcal{L}_{\text{GP}} LTotal=LWPC+LGP
3.3 数学保证
作者证明了 WDM 的性质:
- 非负性与对称性: WDM ( X ; Y ) ≥ 0 \text{WDM}(X;Y) \geq 0 WDM(X;Y)≥0,且 WDM ( X ; Y ) = WDM ( Y ; X ) \text{WDM}(X;Y) = \text{WDM}(Y;X) WDM(X;Y)=WDM(Y;X)。
- 泛化误差界:通过 Rademacher 复杂度分析,证明 WPC 方法在有限样本下更鲁棒。
3.4 实验结果
- 小样本表现:WPC 在小批量数据上优于 CPC,能更好捕捉数据特征。
- 鲁棒性:WPC 在高互信息场景下表现更稳定,梯度惩罚有效防止模型过拟合细节。
4 总结
这篇论文通过引入 WDM 和 WPC 方法,解决了传统对比学习方法在高互信息场景中的不足。其核心思想是用 Wasserstein 距离替代互信息,并通过 Lipschitz 约束提高模型的鲁棒性。实验表明,WPC 方法能够学习更完整、更稳定的特征表示,为表示学习提供了新的思路。
456

被折叠的 条评论
为什么被折叠?



