CVPR2019|卷积核动态选择网络

本文利用多分支不同卷积核融合的网络结构来实现动态选择卷积核,目的是为了模拟实际生物神经元根据不同的刺激可动态调节其自身的感受域,设计思路结合了attention和inception两种机制来实现不同卷积核的选择和融合。本文设计实现的Selective Kernel主要对目前卷积网络,如ResNet、Inception、ShuffleNet等结构中卷积核尺寸大于1的卷积核进行替换,充分利用了group/depthwise卷积带来的较小的理论参数和浮点运算的优点。在实验方面,本文提出的方法在图像分类任务中,top-1的精度方面相比于ResNeXt-50涨了1.4%左右

论文地址:
https://arxiv.org/pdf/1903.06586.pdf
代码地址:
https://github.com/implus/SKNet

引言

目前,卷积神经网络结构中比较有效的两大架构为ResNeXt 和 Inception。前者利用group卷积轻量化大于1的卷积核;后者采用多路卷积核的设计方式。本文提出的SKNet结合了这两大架构的特点,并引入普遍使用的Attention操作将两者联合起来,使得在计算量和参数量没有明显增加的情况,模型的效果有显著提升。

模型

Selective Kernel结构示意图
Selective Kernel 主要分为三个操作步骤进行,分别为Split、Fuse和Select。
Split:输入为 c × h × w c\times h \times w c×h×w 的特征图 X \mathbf X X F ^ \hat {\mathcal F} F^ F ~ \tilde{\mathcal F} F~ 均表示Group Convlution,这里使用Group Convlution以减少计算量。其中,这两路Group Convlution使用的卷积核大小不一致,分别为 3 × 3 3\times 3 3×3 5 × 5 5\times 5 5×5,使Selective Kernel动态选择感受野。
Fuse:通过Split操作分成两路之后,再把两路结果进行融合,然后再做Sequeeze and Excitation block,具体公式如下。




其中, B \mathbf B B 为Batch Normalization, W ∈ R d × C \mathbf W \in \mathbb{R}^{d \times C} WRd×C ,$ \delta $为ReLU激活函数。
Select:将Sequeeze and Excitation block模块的结果通过两个softmax以回归出Channel之间的权重信息,然后把这个权重信息乘到 U ^ \hat {\mathbf U} U^ U ~ \tilde{\mathbf U} U~ 中。这个过程可以认为是soft attention,将两路特征图进行相加得到输出特征图 V \mathbf V V ,具体公式如下。


其中, A c ∈ R C × d \mathbf A_c \in \mathbb{R}^{C \times d} AcRC×d , B c ∈ R C × d \mathbf B_c \in \mathbb{R}^{C \times d} BcRC×d

实验结果

与现有模型效果比较
在ImageNet 2012数据集上,SKNet的效果优于同等参数量下的现有方法,其中,在top-1精度上,SKNet-50相比于ResNeXt-50涨了1.44%,SKNet-101相比于ResNeXt-101涨了0.92%。

结论

本文利用ResNeXt 和 Inception网络结构的特点,结合Sequeeze and Excitation block对同尺寸卷积核的feature map 的 Channel之间的融合和soft attention对不同尺寸卷积核产生feature map的融合,提出了能自适应的选择感受域的大小Selective Kernel Networks(SKNets)。实验证明,该网络结构在图像分类任务中能有效提升模型性能,其中在top-1精度上,SKNet-50相比于ResNeXt-50涨了1.44%,SKNet-101相比于ResNeXt-101涨了0.92%。



扫码识别关注,获取更多论文解读

### CVPR 2024 关于频域卷积神经网络的研究 CVPR 2024 中关于频域卷积神经网络(Frequency Domain Convolutional Neural Networks, FDCNNs)的研究主要集中在探索如何通过频率变换来提高模型性能和效率。这些研究不仅关注理论基础,还探讨了实际应用中的优化方法。 #### 频率域的优势 在传统的时间或空间域中处理图像数据时,卷积操作可能会遇到计算复杂度高、参数量大等问题。而在频率域中,由于傅里叶变换的性质,某些类型的滤波器可以更高效地实现[^1]。具体来说: - **减少冗余信息**:自然场景下的图片往往具有局部自相似性和平滑特性,在转换到频谱表示后能够更好地捕捉全局结构并去除不必要的细节。 - **加速运算速度**:对于特定形式的核函数而言,其对应的频域表达可能更加紧凑简单;此外,快速傅立叶变换算法使得正反向传播过程得以显著提速。 ```python import numpy as np from scipy.fft import fftn, ifftn def freq_conv(input_img, kernel): input_freq = fftn(input_img) kernel_freq = fftn(kernel, s=input_img.shape) output_freq = input_freq * kernel_freq result = ifftn(output_freq).real return result ``` #### 应用案例分析 一项研究表明,在目标检测任务上采用基于小波分解的方法能有效增强边缘保留能力的同时降低噪声干扰的影响[^3]。另一篇工作则指出利用离散余弦变换(DCT)作为预处理步骤有助于提升分类准确性,并减少了过拟合的风险[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值