多尺度无序池化卷积神经网络——MOP-CNN（MultiScale Orderless Pooling）

最新推荐文章于 2025-10-26 20:09:22 发布

原创最新推荐文章于 2025-10-26 20:09:22 发布 · 8.2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #池化 #深度特征 #多尺度

计算机视觉同时被 2 个专栏收录

5 篇文章

订阅专栏

深度学习

2 篇文章

订阅专栏

MOP-CNN是一种改进的卷积神经网络，通过多尺度无序池化来弱化空间信息，增强特征的几何不变性，适用于场景分类等问题。

本文讲解的是Yunchao Gong发表在2014年的ECCV会议上的，“Multi-Scale Orderless Pooling of Deep Convolutional Activation Features”，中文译名是深度卷积激活特征的多尺度无序池化，其中提出了一种多尺度无序池化卷积神经网络，简称是MOP-CNN，下文称为MOP。

先谈核心思想，MOP是对CNN中的特征的有效改进。神经网络的倒数第二层出来的可以认为是特征，这个特征是整个image的特征，但是并不是十分理想的特征。为什么呢？因为卷积神经网络出来的特征的空间信息过强了。在卷积神经网络中的每一层，滤波器都是施加在空间邻近的神经元上。甚至有论文尝试从最后的深度特征恢复出原来的图片，还能得到比较相似的结果。特征的空间信息太强有什么坏处呢？可能会缺乏一些不变性。好的图像特征是要具备一些不变性的（invariant），比如旋转不变性，平移不变性，放缩不变性，亮度不变性，不变性的动机和意义在于，我们人眼识别物体，无论物体位置，距离物体远近，物体旋转的角度，物体受光照的情况，都能识别出物体，也就是说，理想情况下，物体的特征不受上述条件的变化而变化。

那现在空间信息过强，那么特征的几何不变性就会比较弱，比如旋转不变性，平移不变性。在比如场景分类的问题上，相似的场景应当具有一些同类的物体，而可能不限制这些物体的空间位置。但深度特征，由于空间信息过强，就可能隐式地限制了场景内物体的空间位置，可能会将具有同样物体的相似场景判为不相似的场景。为了改进，就要削弱一定的空间信息，将特征进行一定程度的扰乱，弱化空间上有序的程度，然后再重新组合成新的特征。