详细解读论文 CPC:Representation Learning with Contrastive Predictive Coding

这篇论文提出了一种无监督的对比预测编码(CPC)方法,旨在从高维数据中提取全局特征。通过最大化当前状态特征与未来输入的互信息,CPC能够在没有标签的情况下学习到数据的深层表示。实验表明,CPC在语音识别、图像等领域表现出色,其效果接近甚至优于监督学习方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract:

​该篇论文提出了一种完全的无监督的方法,旨在从高维的特征空间中提取有效特征同时舍弃掉一些更加局部的特征。简单来说目的就是更加有效的提取特征,提取更加global的"slow features"。该方法较为通用,在很多任务中都可以得到应用,文中列举了:语音,图像,文本,3D领域强化学习等方向的应用。

Method:

​无监督学习并没有label来引导网络学习,就像一个野外长大的孩子,没有大人教他何为对错,只能从不断接触到的新的环境中寻找规律。为了提取到前面描述的“良好的“特征,该篇论文的方法是:增大当前状态特征c与未来输入特征x的互信息。为什么要这么做呢?如果我能用当前的输入在一定程度上去”预测“后面的输入,那么我就已经找到了输入的某些规律,也就是提取到的特征能够很好的描述输入数据的一些共同之处。

​那么如何衡量特征间的互信息呢?用x指代输入,用c指代上下文,文中指出假如仅仅用p(x|c)来代表互信息不是最优的。因为使用这种条件概率衡量互信息有一个弊端:例如对于图像,这里的高维特征c所含的信息是要远少于输入图像的信息量的,这样来衡量当前状态特征c与未来输入x的互信息并不是最优的。我的理解是:由于c自身所携带的信息较小,所以当以优化条件概率p(x|c)为目的的模型在训练时可能导致用c预测的x会忽略一些信息。取而代之文中使用下式来衡量x和c的互信息大小:

这个式子可以说是本文的核心。至于为何

### Vision Mamba: 双向状态空间模型用于高效视觉表征学习 Vision Mamba 是一种创新性的框架,旨在通过引入双向状态空间模型来实现高效的视觉表征学习。该方法利用了时间序列数据中的前后依赖关系,从而提高了特征提取的效果。 #### 架构概述 在传统的时间序列分析中,单向模型仅考虑过去的信息。然而,在某些情况下,未来的信息同样重要。为此,Vision Mamba 提出了一个新颖的架构,它不仅能够从前向后处理输入序列,还可以从后向前处理同一序列[^1]。这种设计使得网络可以捕捉到更丰富的上下文信息,进而提升整体性能。 ```python class BidirectionalStateSpaceModel(nn.Module): def __init__(self, input_dim, hidden_dim): super(BidirectionalStateSpaceModel, self).__init__() self.forward_model = nn.LSTM(input_dim, hidden_dim) self.backward_model = nn.LSTM(input_dim, hidden_dim) def forward(self, x): # 前向传播 output_forward, _ = self.forward_model(x) # 后向传播 (反转输入顺序) reversed_x = torch.flip(x, [0]) output_backward, _ = self.backward_model(reversed_x) combined_output = torch.cat((output_forward, output_backward), dim=-1) return combined_output ``` 此代码片段展示了如何构建一个简单的双向 LSTM 模型作为状态空间的一部分。实际应用中可能还需要加入更多组件以适应具体任务需求[^2]。 #### 训练过程 为了训练这样的复杂结构,研究者们采用了一种特殊的损失函数组合策略。除了常见的重构误差外,还加入了正则化项以及对比损失,用来鼓励生成更具区分度且稳定的表示形式[^3]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值