Representation Learning with Contrastive Predictive Coding-对比学习阅读笔记

最新推荐文章于 2024-12-08 14:03:35 发布

生命吹起轻叹

最新推荐文章于 2024-12-08 14:03:35 发布

阅读量358

点赞数

文章标签：学习机器学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_45377668/article/details/129819669

版权

文章介绍了对比学习的一种形式——预测编码，其目标是通过预测未来或缺失的内容来学习特征表示。这种方法利用互信息最大化来捕获输入数据的共享信息，特别是在图像和语言领域。文中提出的ContrastivePredictiveCoding(CPC)模型通过非线性编码器和自回归模型来估计输入序列的未来内容，优化InfoNCE损失以最大化正样本对之间的互信息，同时最小化负样本对之间的互信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对比学习

Representation Learning with Contrastive Predictive Coding

Goal

关于无监督最普遍的策略就是预测未来/缺失/内容，预测编码便是在信号处理中用于数据压缩的经典方法。该方法在图像、语言领域表现突出，作者认为这是因为当我们预测相关值的上下文时经常有条件地依赖于共享的特征信息。通过将其当作预测问题，我们就能自动推断出最有利于表征学习的特征。

作者提到学习到的特征应该能够编码高维信号不同部分的潜在共享信息。随着时间步越长，预测步骤越多，共享的潜在信息就会越少，要建模更全局的结构。在这之中，慢性特征或成为我们的关注对象。高水平表达和原始传感信号之间的一个主要区别在于它们变动的时间尺度。因此一个缓慢变化的表示被认为比一个快速变化的表示具有更高的抽象特征。

重构所有细节的生成式模型计算量太大，耗费大量资源建模数据x的关系又忽略了上下文c，因此直接建模 $p (x / c)$ 对于提取x和c之间的共享信息并不是最优解。在预测未来信息时，作者将目标x（未来）和上下文c（当前）编码成紧凑的分布式向量表示，最大限度地保留了原始信号x和c的互信息，定义为：
$I(x;c)=\sum_{x,c}p(x,c)log\frac{p(x|c)}{p(x)} \qquad$
互信息可以表示两个随机变量之间的相互依赖关系，从下面公式可以看出，X与Y的互信息就是观察到Y之后，X的不确定性的减少，也就是给定Y之后X信息量的减少，互信息可以描述随机变量之间高阶的相关程度，值越大，表示相互依赖性越强。
$I (X; Y) = H (X) - H (X ∣ Y)$
这样就通过最大化编码后的表示之间的互信息，提取输入共同具有的潜在变量。

Method

在这里插入图片描述

Contrastive Predictive Coding

如上图所示，一个非线性编码器 $g_{enc}$ 将输入序列映射成特征序列 $z_t=g_{enc}(z_{\leq t})$ ，之后一个自回归模型 $g_{ar}$ 总结所有 $z_{\leq t}$ ，生成一个内容特征表示 $c_t=g_{ar}(z_{\leq t})$ ，这篇工作并不直接通过生成式模型 $p_k(x_{t+k}|c_t)$ 预测 $x_{t+k}$ ，而是建模密度比来保存 $x_{t+k}$ 和 $c_t$ 的互信息：
$f_k(x_{t+k},c_t)=exp(z^T_{t+k}W_kc_t)$
其中 $f_k(x_{t+k},c_t)$ 成比例与 $\frac{p(x_{t+k}|c_t)}{p(x_{t+k})}$ 。 $W_kc_t$ 用于每一步k的不同 $W_k$ 的预测。这样利用密度比，通过编码器推断 $z_{t+k}$ ，可以将模型从高维分布 $x_{t+k}$ 中抽离出来。

InfoNCE Loss and Mutual Information Estimation

编码器和自回归模型共同在infoNEC损失中优化，给一个采样集 $X=\{x_1,...,x_N\}$ 包含N个随机样本，其中一个来自 $p(x_{t+k},c_t)$ 的正样本和 $N - 1$ 个来自建议分布 $p(x_{t+k})$ 的负样本，作者构建目标函数(以softmax函数为基础的关于经验分布的期望似然):