多尺度无序池化卷积神经网络——MOP-CNN(MultiScale Orderless Pooling)

MOP-CNN是一种改进的卷积神经网络,通过多尺度无序池化来弱化空间信息,增强特征的几何不变性,适用于场景分类等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文讲解的是Yunchao Gong发表在2014年的ECCV会议上的,“Multi-Scale Orderless Pooling of Deep Convolutional Activation Features”,中文译名是深度卷积激活特征的多尺度无序池化,其中提出了一种多尺度无序池化卷积神经网络,简称是MOP-CNN,下文称为MOP。

先谈核心思想,MOP是对CNN中的特征的有效改进。神经网络的倒数第二层出来的可以认为是特征,这个特征是整个image的特征,但是并不是十分理想的特征。为什么呢?因为卷积神经网络出来的特征的空间信息过强了。在卷积神经网络中的每一层,滤波器都是施加在空间邻近的神经元上。甚至有论文尝试从最后的深度特征恢复出原来的图片,还能得到比较相似的结果。特征的空间信息太强有什么坏处呢?可能会缺乏一些不变性。好的图像特征是要具备一些不变性的(invariant),比如旋转不变性,平移不变性,放缩不变性,亮度不变性,不变性的动机和意义在于,我们人眼识别物体,无论物体位置,距离物体远近,物体旋转的角度,物体受光照的情况,都能识别出物体,也就是说,理想情况下,物体的特征不受上述条件的变化而变化。

那现在空间信息过强,那么特征的几何不变性就会比较弱,比如旋转不变性,平移不变性。在比如场景分类的问题上,相似的场景应当具有一些同类的物体,而可能不限制这些物体的空间位置。但深度特征,由于空间信息过强,就可能隐式地限制了场景内物体的空间位置,可能会将具有同样物体的相似场景判为不相似的场景。为了改进,就要削弱一定的空间信息,将特征进行一定程度的扰乱,弱化空间上有序的程度,然后再重新组合成新的特征。

### 多尺度一维卷积神经网络架构 多尺度一维卷积神经网络(Multi-Scale Convolutional Neural Network, MSCNN)是一种专门针对不同长度特征提取而设计的网络结构。这种网络能够在多个尺度上捕捉输入数据的不同频率成分,从而增强模型的表现力。 #### 架构特点 MSCNN通常由若干个分支组成,每个分支负责在一个特定的时间窗口内执行卷积操作。不同的分支可以设置不同的卷积核尺寸来适应各种模式的变化: - **多尺度卷积层**:采用多种大小的卷积核对同一输入进行卷积运算,使得网络可以从局部细节到全局趋势等多个层次理解数据[^2]。 - **并联结构**:各个子网独立工作,最后将它们的结果拼接在一起作为下一层的输入。这种方式允许网络同时考虑短程依赖性和长程依赖性[^3]。 - **池化层**:在每一级卷积之后加入最大值或平均值池化层减少参数量的同时保留重要信息[^4]。 ```python import torch.nn as nn class MultiScale1DCNN(nn.Module): def __init__(self, input_channels=1, num_classes=10): super(MultiScale1DCNN, self).__init__() # 定义三种不同尺度的一维卷积层 self.conv_small = nn.Conv1d(input_channels, 64, kernel_size=3, padding=1) self.conv_medium = nn.Conv1d(input_channels, 64, kernel_size=5, padding=2) self.conv_large = nn.Conv1d(input_channels, 64, kernel_size=7, padding=3) self.pool = nn.MaxPool1d(kernel_size=2, stride=2) self.fc = nn.Linear(64 * 3 * 16, num_classes) # 假设输入长度为64 def forward(self, x): small_out = self.pool(F.relu(self.conv_small(x))) medium_out = self.pool(F.relu(self.conv_medium(x))) large_out = self.pool(F.relu(self.conv_large(x))) out = torch.cat((small_out, medium_out, large_out), dim=1) out = out.view(out.size(0), -1) out = F.softmax(self.fc(out)) return out ``` #### 应用场景 多尺度一维卷积神经网络广泛应用于时间序列分析、生物医学工程等领域。特别是在人体活动识别(Human Activity Recognition, HAR)方面表现出色,因为这类任务往往涉及复杂的运动模式变化,需要从细粒度的动作片段中抽取有意义的信息。 对于非传统的时间序列数据集,比如电子健康记录中的连续监测指标,也可以利用该技术实现高效准确的数据挖掘和预测建模。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值