Octave Convolution 八度卷积

最新推荐文章于 2023-10-30 17:12:56 发布

原创

最新推荐文章于 2023-10-30 17:12:56 发布 · 2.5k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了Facebook提出的Octave Convolution（八度卷积），一种旨在减少计算量和显存占用的卷积方法。通过将特征图分为高频和低频部分，八度卷积在低频部分降低维度，同时保持高频信息。实验表明，这种方法在ResNet/ResNeXt系列网络中提高了性能，降低了计算复杂度，并且适用于不同类型的卷积操作。

Facebook在2019年时推出了一种新的卷积方法，叫做Octave Convolution，中文名是八度卷积。这个名字借鉴了音乐中高音低音的命名方法，来表示图像中高低频的数据。

图像和特征图的高低频表示

对于一张图片来说，低频的数据是比较平滑的部分，也就是图像的整体结构，高频的数据是那些细节的纹理，也就是边缘像素变化比较大的部分。如图1(a)所示。

图1. 图像和特征图的高低频表示
在这里插入图片描述

图1(a)中左图是一张企鹅的原始图片，中间是图片分离出来的低频的部分，也就是整体轮廓图，右图是图像的高频部分，也就是图片的边缘图（有点像素描）。

图1(b)是普通卷积特征图，通常情况下可以分成高频和低频两个部分。由于低频部分的特征基本上比较平滑，所以在特征图上其实不需要和高频一样的维度去表达图像的信息，如图1（c）所示，论文在低频的特征图上将宽高维度降了一半。

图1(d)表示高低频的特征信息的更新和交换，高低频的特征既有各自频率内的卷积操作，也有低频向高频和高频向低频的特征交换和融合，具体怎么操作下面会介绍。

八度卷积的操作

图2. 八度卷积的操作方式
在这里插入图片描述

八度卷积的具体操作方式如图2(a)所示。其中 $αin\alpha_{in}$ 和 $αout\alpha_{out}$ 是输入和输出特征图的低频维度在总维度中的占比，在论文中一般假设 $αin=αout\alpha_{in}=\alpha_{out}$ 。图2(b)中间绿色的线表示高低频在各自频域内的卷积，卷积核分别是 $WH→HW^{H\rightarrow H}$ 和 $WL→LW^{L\rightarrow L}$

最低0.47元/天解锁文章

6 条评论

weixin_48771454 2023.03.16
你好，请问有实验的代码吗

Asthestarsfalll 2021.03.08
请问下图像的高频和低频是如何得到的，我看有的地方说是通过高斯滤波，但是有的代码直接用原图经过卷积得到。
- EntropyNeg回复Asthestarsfalll 2021.03.10
  是的，卷积维度大小是通过αin来分配；是否高低频卷积取决于被卷积的特征是否是高低频，高频的信息丰富，用的是比较宽高比较大的特征图来表示（如图2左橙色），低频信息比较少，用的是长宽比较小的特征图来表示（如图2左蓝色）
- Asthestarsfalll回复EntropyNeg 2021.03.09
  对了，请问第一层八度卷积是通过论文中的αin=0来实现的吗，如果是这样怎么确保后续操作的对象就是对应的高低频
- Asthestarsfalll回复EntropyNeg 2021.03.09
  大概了解了，多谢
- EntropyNeg回复Asthestarsfalll 2021.03.08
  你看图2右边中的卷积核有四个部分，左上角是高频的，右下角是低频的。负责长宽较小的特征的卷积核自然就是低频的，反之就是高频的。

评论 6

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。