WDM 论文阅读笔记:从信息论到表示学习

Ozair, Sherjil, et al. “Wasserstein dependency measure for representation learning.” Advances in Neural Information Processing Systems 32 (2019).

  • arxiv:https://arxiv.org/abs/1903.11780
  • pdf:https://arxiv.org/pdf/1903.11780
  • html:https://ar5iv.labs.arxiv.org/html/1903.11780

表示学习是机器学习中的重要研究方向,目标是从数据中提取简洁而有用的特征表示。在这篇博客中,我们将围绕一篇引入 Wasserstein 依赖度量 (WDM) 的论文展开,结合经典的对比学习方法(CPC),一步步剖析这篇论文的背景、动机、方法和实验结果。

我们先从信息论的基础知识讲起,包括熵、KL 散度、互信息和 Wasserstein 距离。



1 熵、KL 散度、互信息和 Wasserstein 距离

1.1 熵 (Entropy)

熵是衡量随机变量不确定性的核心概念。简单来说,熵越大,随机变量的结果越不可预测。
数学形式:

  • 离散型随机变量 X X X 的熵:
    H ( X ) = − ∑ x p ( x ) log ⁡ p ( x ) H(X) = -\sum_{x} p(x) \log p(x) H(X)=xp(x)logp(x)
  • 连续型随机变量 X X X 的熵:
    H ( X ) = − ∫ p ( x ) log ⁡ p ( x ) d x H(X) = -\int p(x) \log p(x) dx H(X)=p(x)logp(x)dx

直观理解:
假设你有一个硬币:

  • 如果硬币是公平的(正反面概率相等),熵最大,因为结果完全不可预测。
  • 如果硬币是偏的(正面概率接近1),熵较小,因为结果更确定。

1.2 KL 散度 (Kullback-Leibler Divergence)

KL散度衡量两个概率分布 P P P Q Q Q 之间的差异。它可以理解为用分布 Q Q Q 来近似真实分布 P P P 时引入的额外不确定性
数学形式:

  • 离散型:
    D K L ( P ∥ Q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x ) D_{KL}(P \parallel Q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)} DKL(PQ)=xp(x)logq(x)p(x)
  • 连续型:
    D K L ( P ∥ Q ) = ∫ p ( x ) log ⁡ p ( x ) q ( x ) d x D_{KL}(P \parallel Q) = \int p(x) \log \frac{p(x)}{q(x)} dx DKL(PQ)=p(x)logq(x)p(x)dx

性质:

  • D K L ( P ∥ Q ) ≥ 0 D_{KL}(P \parallel Q) \geq 0 DKL(PQ)0,当且仅当 P = Q P = Q P=Q 时等于0。
  • KL散度是非对称的,即 D K L ( P ∥ Q ) ≠ D K L ( Q ∥ P ) D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P) DKL(PQ)=DKL(QP)

直观理解:
KL 散度关注的是分布的“匹配程度”。比如, P P P 是硬币的真实分布,而 Q Q Q 是预测分布。如果 Q Q Q 偏差很大,KL 散度会很高。


1.3 互信息 (Mutual Information)

互信息衡量两个随机变量 X X X Y Y Y 的相关性,描述知道一个变量后能减少另一个变量的不确定性。
数学形式:
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) I(X;Y)=H(X)H(XY)=H(Y)H(YX)
互信息也可以表示为KL散度的特例:
I ( X ; Y ) = D K L ( P ( X , Y ) ∥ P X ⊗ P Y ) I(X;Y) = D_{KL}(P_{(X,Y)} \parallel P_X \otimes P_Y) I(X;Y)=DKL(P(X,Y)PXPY)
其中, P ( X , Y ) P_{(X,Y)} P(X,Y) 是联合分布, P X ⊗ P Y P_X \otimes P_Y PXPY 是边缘分布的独立乘积。

直观理解:
互信息是两变量的“共享信息量”。例如, X X X 是天气, Y Y Y 是是否带伞。如果天气完全决定带伞(如下雨必带伞),则互信息很大;如果天气和带伞无关,则互信息为0。


1.4 Wasserstein 距离 (Wasserstein Distance)

Wasserstein 距离是一种用于衡量概率分布之间“地理距离”的方法,它考虑了数据点的空间分布(不像 KL 散度只看概率比)。
数学形式:
W 1 ( P , Q ) = inf ⁡ γ ∈ Γ ( P , Q ) E ( x , y ) ∼ γ [ ∥ x − y ∥ ] W_1(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \mathbb{E}_{(x, y) \sim \gamma}[\|x - y\|] W1(P,Q)=γΓ(P,Q)infE(x,y)γ[xy]
其中 Γ ( P , Q ) \Gamma(P,Q) Γ(P,Q) 是所有联合分布的集合,其边缘分布为 P P P Q Q Q

对偶形式:
Wasserstein 距离也可以通过对偶形式计算:
W 1 ( P , Q ) = sup ⁡ ∥ f ∥ L ≤ 1 ( E x ∼ P [ f ( x ) ] − E y ∼ Q [ f ( y ) ] ) W_1(P, Q) = \sup_{\|f\|_L \leq 1} \left( \mathbb{E}_{x \sim P}[f(x)] - \mathbb{E}_{y \sim Q}[f(y)] \right) W1(P,Q)=fL1sup(ExP[f(x)]EyQ[f(y)])
这里 f f f 是1-Lipschitz函数。

直观理解:
Wasserstein 距离也叫“推土机距离”,它衡量把土堆( P P P)搬到目标位置( Q Q Q)所需的最小“工作量”。


2 对比学习与 CPC 方法

在表示学习中,对比学习是一种无监督方法,目标是通过比较数据对之间的关系来学习有用的特征表示。CPC(Contrastive Predictive Coding)是经典的对比学习方法。

2.1 CPC 的核心思想

CPC 的目标是通过最大化互信息来学习特征表示。具体来说,它通过一个“找朋友”的游戏来实现:

  1. 给定一张图片 x x x,选取其一个相关样本(正样本) y + y_+ y+ 和若干无关样本(负样本) { y 1 − , y 2 − , …   } \{y_1^-, y_2^-, \dots\} {y1,y2,}
  2. 训练一个打分函数 f ( x , y ) f(x, y) f(x,y),要求:
    • 对正样本 ( x , y + ) (x, y_+) (x,y+) 的分数尽可能高。
    • 对负样本 ( x , y − ) (x, y^-) (x,y) 的分数尽可能低。

2.2 CPC 的损失函数

CPC 通过 InfoNCE 损失函数最大化互信息的下界:
L CPC = − E [ log ⁡ e f ( x , y + ) e f ( x , y + ) + ∑ j = 1 K − 1 e f ( x , y j − ) ] \mathcal{L}_{\text{CPC}} = -\mathbb{E} \left[ \log \frac{e^{f(x, y_+)}}{e^{f(x, y_+)} + \sum_{j=1}^{K-1} e^{f(x, y_j^-)}} \right] LCPC=E[logef(x,y+)+j=1K1ef(x,yj)ef(x,y+)]

2.3 CPC 的问题

  1. 互信息估计的缺陷:当互信息值很高时,估计需要大量负样本,计算代价高。
  2. 对微小变化不鲁棒:打分函数 f ( x , y ) f(x, y) f(x,y) 可能过度关注无关细节。

3 WDM 方法与论文解读

3.1 动机

  • 现有方法基于互信息(如 CPC)在高互信息场景下效果不佳,模型容易忽略部分重要特征。
  • 作者提出用 Wasserstein 依赖度量 (WDM) 替代互信息,衡量数据对 ( x , y ) (x, y) (x,y) 的依赖关系。

3.2 方法总结

WDM 的定义:
WDM 用 Wasserstein 距离替代互信息:
WDM ( X ; Y ) = W 1 ( P ( X , Y ) , P X ⊗ P Y ) \text{WDM}(X;Y) = W_1(P_{(X,Y)}, P_X \otimes P_Y) WDM(X;Y)=W1(P(X,Y),PXPY)
它衡量 X X X Y Y Y 的联合分布与独立分布的差异,反映两者的依赖关系。

WPC 方法:
作者提出 Wasserstein Predictive Coding (WPC),优化以下目标:

  1. 主损失(与 CPC 类似):
    L WPC = − log ⁡ e f ( x , y + ) e f ( x , y + ) + ∑ j = 1 K − 1 e f ( x , y j − ) \mathcal{L}_{\text{WPC}} = - \log \frac{e^{f(x, y_+)}}{e^{f(x, y_+)} + \sum_{j=1}^{K-1} e^{f(x, y_j^-)}} LWPC=logef(x,y+)+j=1K1ef(x,yj)ef(x,y+)
  2. Lipschitz约束:通过梯度惩罚实现 1-Lipschitz 约束:
    L GP = λ ⋅ E x ^ , y ^ [ ( ∥ ∇ f ( x ^ , y ^ ) ∥ 2 − 1 ) 2 ] \mathcal{L}_{\text{GP}} = \lambda \cdot \mathbb{E}_{\hat{x}, \hat{y}} \left[ (\|\nabla f(\hat{x}, \hat{y})\|_2 - 1)^2 \right] LGP=λEx^,y^[(∥∇f(x^,y^)21)2]
  3. 总损失
    L Total = L WPC + L GP \mathcal{L}_{\text{Total}} = \mathcal{L}_{\text{WPC}} + \mathcal{L}_{\text{GP}} LTotal=LWPC+LGP

3.3 数学保证

作者证明了 WDM 的性质:

  1. 非负性与对称性 WDM ( X ; Y ) ≥ 0 \text{WDM}(X;Y) \geq 0 WDM(X;Y)0,且 WDM ( X ; Y ) = WDM ( Y ; X ) \text{WDM}(X;Y) = \text{WDM}(Y;X) WDM(X;Y)=WDM(Y;X)
  2. 泛化误差界:通过 Rademacher 复杂度分析,证明 WPC 方法在有限样本下更鲁棒。

3.4 实验结果

  1. 小样本表现:WPC 在小批量数据上优于 CPC,能更好捕捉数据特征。
  2. 鲁棒性:WPC 在高互信息场景下表现更稳定,梯度惩罚有效防止模型过拟合细节。

4 总结

这篇论文通过引入 WDM 和 WPC 方法,解决了传统对比学习方法在高互信息场景中的不足。其核心思想是用 Wasserstein 距离替代互信息,并通过 Lipschitz 约束提高模型的鲁棒性。实验表明,WPC 方法能够学习更完整、更稳定的特征表示,为表示学习提供了新的思路。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值