论文提出可变形卷积核(DK)来自适应有效感受域,每次进行卷积操作时都从原卷积中采样出新卷积,是一种新颖的可变形卷积的形式,从实验来看,是之前方法的一种有力的补充。
来源:晓飞的算法工程笔记 公众号
论文: Deformable Kernels: Adapting Effective Receptive Fields for Object Deformation

Introduction

传统的卷积由于存在硬性的规则,在对于物体放大或旋转时,不能作出适应性的改变,而可变形卷积则通过改变输入的采样位置来进行适应性的改变,即改变理论感受域。但理论感受域并不能度量像素对输出的贡献,相比理论感受域,更重要的是有效感受域(ERF),通过计算输出对应输入的偏导获得(与卷积权重相关),改变理论感受域只是改变有效感受域的一种手段。
为此,论文提出可变形卷积核(Deformable Kernels, DK),用于进行可变形建模的新型卷积操作,在推理时根据输入直接生成新的卷积核来改变有效感受域。如图d,DK学习卷积核的偏移来对原卷积进行重新采样,而不改变输入数据。从实验结果来看,DK对分类任务和检测任务都十分有效,结合旧的可变形卷积方法能产生更好的结果。
Approach
对有效感受域概念不感兴趣的可以直奔后面对可变形卷积核的描述,前面有效感受域的介绍不影响后面内容。
A Dive into Convolutions

大小为 K × K K\times K K×K,stride为1的二维卷积操作如公式1,输出为目标区域像素与卷积核乘积的和, K = [ − K / 2 , K / 2 ] 2 \mathcal{K}=[-K/2,K/2]^2 K=[−K/2,K/2]2。
卷积层单个输出相对于上一层的输入的感受域大小为卷积核大小 K × K K\times K K×K,当卷积层叠加起来时,单个输出的对应的隔层感受域也会因此而叠加,得到的叠加区域即理论感受域,与卷积核大小 K K K和网络深度 n n n线性相关。
由于卷积的叠加以及非线性激活的引入,理论感受域内的像素对输出的贡献各不相同,可以使用有效感受域(ERF)来度量区域内每个像素对输出的影响,通过计算输出对应像素值的偏导得到,具体可以看参考论文。
Analysis on Effective Receptive Fields
这里主要分析如何根据输入和一系列卷积来计算有效感受域,先分析线性卷积网络的情景,再拓展到非线性卷积网络。

对于线性卷积网络,给定 I ( 0 ) I^{(0)} I(0)为输入图片以及stride为1的 K × K K\times K K×K卷积权重合集 { W ( s ) } s = 1 n \{W^{(s)}\}_{s=1}^n { W(s)}s=1n,公式1可以展开为公式2,特征图 I I I和卷积权重 W W W的上标以及卷积核位置 k k

提出一种新颖的可变形卷积形式——可变形卷积核(DK),它自适应地改变有效感受域,每次卷积从原卷积中采样新卷积。DK对分类和检测任务有效,结合传统可变形卷积提升性能。
最低0.47元/天 解锁文章
1104

被折叠的 条评论
为什么被折叠?



