可变形卷积网络:Deformable Convolutional Networks

论文提出了可变形卷积网络(Deformable ConvNets),通过可变形卷积和可变形RoI pooling增强CNNs对几何变换的建模能力。这种方法学习附加偏移量来自适应地改变采样位置,以处理复杂和未知的几何变换。实验表明,这种方法在目标检测和图像分割等任务中表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文献:https://arxiv.org/abs/1703.06211
代码实现:https://github.com/msracver/Deformable-ConvNets
包括理解!

Deformable Convolutional Networks

摘要

卷积神经网络(CNNs)由于其构建模块中固定的几何结构,导致模型的几何变换存在局限性。在这项工作中,我们引入了两个新的模块来增强CNNs的转换建模能力,即可变形卷积和可变形RoI pooling。这两种方法的思想都是在不需要额外监控的情况下,使用附加偏移量来增加模块中的空间采样位置,并从目标任务中学习偏移量。新模块可以很容易地取代现有CNN中的普通模块,并且可以通过标准的反向传播进行端到端的简单训练,从而产生可变形卷积网络。大量实验验证了该方法在复杂的目标检测和图像分割视觉任务中的有效性。

1 引言

视觉识别任务中的一个关键挑战是如何适应物体尺寸、姿态、视野和部分变形中的几何变化或模型几何变换(理解:目标有几何变换这个好理解,模型中也可以加入几何变换机制,以学习目标的几何变换)。一般来说,有两种方法:第一是建立足够的具有多样性变化的训练数据集,通常是在现有数据集上通过如仿射变换等方式增加数据样本,进而可以从数据中学习鲁棒性表示,但需要大量训练和复杂的模型参数。第二是利用非变换性质的特征和算法(理解:模型中没有几何变换机制),包含了许多众所周知的技术,例如SIFT(scale-invariant feature transform)[42]和基于目标检测的滑动窗。

上述方法有两个缺点:第一,假设几何变换是固定且已知的。利用这些先验知识对数据进行扩充、设计特征和算法,这种假设不能对具有未知几何变换的新任务进行正确建模。第二,即使变换是已知的,手工设计非变换性质的特征和算法对过于复杂的转换来说可能也是困难或不可行的。

近年来,卷积神经网络(CNNs)[35]在图像分类[31]、图像分割[41]和目标检测[16]等视觉识别任务中取得了显著的成功。尽管如此,他们仍然有上述两个缺点。它们对几何变换的建模能力主要来自于数据集扩展、较大的模型和一些简单的手工设计模块(例如,用于小平移不变性的max pooling[1])。

简而言之,CNNs对复杂未知转换进行建模存在局限性,限制来源于CNN模型的固定几何结构:卷积单元在固定位置对输入特征图进行采样;池化层以固定比率降低空间分辨率;RoI pooling(感兴趣区域)层将RoI分成固定的空间bins等。CNNs中缺乏处理几何变换的中间机制,这会引起明显的问题,例如,同一CNN层中所有激活单元的感受野大小是相同的,这对于在空间位置上编码语义信息的高层CNN层来说是不可取的,因为不同位置可能对应于具有不同尺度或变换的目标,对于精细定位的视觉识别任务来说,需要自适应地确定尺度或感受野的大小,例如,使用完全卷积网络的语义分割[41]。另一个例子是,虽然目标检测最近有了显著而迅速的进展[16,52,15,47,46,40,7],但是所有的方法仍然依赖于基于特征提取的anchor box,对于非刚性目标,这种方式显然不是最好的。

在这项工作中,我们引入了两个新的模块,大大增强了CNNs对几何变换的建模能力:

第一种是可变形卷积,它在标准卷积基础上对每个方格采样点增加了一个2D偏移,从而允许采样网格自由变形,如图1所示。偏移量通过额外的卷积层从前面的特征图中学习,因此变形方式(局部、密集和自适应)取决于输入特征。
在这里插入图片描述
第二种是可变形的RoI pooling,在标准RoI pooling的基础上对每个bin位置添加一个偏移[15,7],类似地,偏移量从前面的特征图和Rois中学习,从而可以对不同形状的目标进行自适应的局部定位

两个模块都是轻量级的,只增加了少量的参数和计算量学习偏移量,它们可以很容易地替换深度CNN的普通模块,并且可以使用标准反向传播进行端到端的训练,由此产生的CNN称为可变形卷积网络或可变形ConvNets。

我们的方法与空间变换网络[26]和可变形part模型[11]在主旨上具有较高的相似性,它们都从数据中学习内部转换参数,区别在于可变形卷积网络是以简单、高效、深入和端到端的方式处理密集的空间变换。在第3.1节中,我们详细讨论了我们的工作与以往工作的关系,并分析了可变形卷积网络的优越性。

2 可变形卷积网络

CNNs的特征图和卷积都是3D的,而可变形卷积和RoI pooling模块都在2D空间上进行操作,整个操作保持通道数不发生变化。在不丧失通用性的情况下,为了表示清楚,在这里用2D描述,可直接扩展到3D。

2.1 可变形卷积

2D卷积包括两个步骤:1)在输入特征图 x x x上使用规则方格 R R R进行采样;2)对采样值进行加权求和。 R R R定义了感受野及空洞大小,比如下列定义了一个3x3的卷积核,空洞大小为1。
在这里插入图片描述
对输出特征图 y y y的每个位置 p 0 p_0 p0,有以下操作, p n p_n pn枚举了 R R R中的位置。
在这里插入图片描述
在可变形卷积中,规则方格 R R R增加了偏移量{ ∆ p n ∣ n = 1 , … , N ∆p_n|n=1,…,N pnn=1,,N}, N = ∣ R ∣ N=|R| N=R,公式1变为
在这里插入图片描述
现在,采样是在不规则和偏移位置 p n + ∆ p n p_n+∆p_n pn</

### 回答1: 可变形卷积网络Deformable Convolutional Networks, DCN)是一种卷积神经网络,其允许卷积核的形状在运行时发生变化。这使得网络能够适应不同形状的目标,并在识别对象时获得更高的精度。DCN通过在普通卷积层上加入一个可变形控制层来实现可变形卷积。 ### 回答2: 可变形卷积网络Deformable Convolutional Networks,DCN)是一种基于卷积神经网络(CNN)的改进技术。它是由微软亚洲研究院提出的一种新型的卷积实现。相比于传统的卷积操作,可变形卷积更加适合于图像中存在的错位、形变等问题。 可变形卷积网络使用了可变形卷积操作代替了普通的卷积操作。其主要思想是在空间结构中引入可变形卷积核,并利用其根据突出区域自适应进行偏移,从而获得更准确的分割结果。具体来说,可变形卷积使用了两个并行的转换网络,它们的输出结果被用来控制卷积核的偏移。一个转换网络用于生成偏移量,而另一个用于生成系数。 对于一个输入图像的像素点而言,传统的卷积操作使用的卷积核是在固定位置上的局部像素数据去学习特征的权重。而可变形卷积则引入了可变形卷积核,并增加了一个偏移量的学习过程。即可变形卷积核首先会根据突出区域自适应调整,形成具有方向性和形变性质的卷积核,再用这个卷积核去识别图像的特征。 总之,相比较于使用固定的卷积核来进行卷积操作,可变形卷积网络可以更加准确地提取图像的特征,消除像素错位的问题,并获得更加可靠和精准的预测结果。近年来,可变形卷积网络已经被广泛应用到目标检测、语义分割等领域,取得了不俗的成效。 ### 回答3: Deformable Convolutional Networks可变形卷积网络)是一种基于卷积神经网络(CNN)的创新结构,能够自适应感受野来适应不同尺度的特征提取。传统CNN的卷积核是固定的,无法区分不同位置像素的重要性,而DCN则引入了可变形卷积来实现自适应调整卷积核,从而获得更好的特征提取能力。 DCN最大的特点就是在卷积操作中引入了可变形卷积,即使卷积核不断变形,也能够对图像中不同成分进行区分。具体来说,可变形卷积将每个卷积核拆分成两部分,一部分是原始卷积核,一部分则是从特征图中自适应生成的偏移量。通过调整偏移量,可变形卷积核能够自适应调整,以适应不同的图像区域,从而提高了准确率。 相对于传统CNN,DCN在许多领域都有了极大的优势。比如在目标检测中,DCN能够对于不同尺度的物体进行更好的特征提取,因此在各种目标检测任务中都取得了很不错的成果。在语义分割领域,DCN能够真正意义上地较好地适应于不规则的语义区域,能够更加准确地分割出更加复杂的物体。 总之,Deformable Convolutional Network 是一种创新结构,能够通过引入可变形卷积来提高图像特征提取的准确性,并在目标检测和分类、语义分割等领域中取得了良好的表现。未来,这种创新性结构还会不断地被应用于更加丰富多彩的图像识别场景中,带来更加优秀的表现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值