导读
我们提出了一种基于可变形特征的注意力机制(DFAM),以提高可变形DETR对细长物体检测的准确性和效率。
摘要
物体检测是计算机视觉中最重要方面之一,并在多个领域取得了显著成果。值得注意的是,关于细长物体检测的研究相对较少。卷积神经网络(CNN)广泛应用于物体检测,但由于其固定的几何结构和采样点,在细长物体检测上的表现较差。相比之下,可变形DETR能够获取从全局到局部的特征。尽管它在细长物体检测的准确性和效率上优于CNN,但结果仍不尽如人意。因此,我们提出了一种基于可变形特征的注意力机制(DFAM),以提高可变形DETR对细长物体检测的准确性和效率。DFAM具有可变形卷积和注意力机制的自适应采样点,能够在骨干网络中聚合整个输入序列的信息。改进后的检测器被称为基于可变形特征的注意力机制DETR(DFAM-DETR)。结果显示,DFAM-DETR在细长物体检测上实现了卓越的性能。
1 介绍
近年来,作为重要的研究课题,物体检测随着深度学习在计算机视觉中的应用日益增加而取得了显著进展。对于图像中的每个感兴趣物体,物体检测需要算法预测一个带有类别标签的边界框。单阶段检测器和双阶段检测器是两种主要类型的物体检测器。例如,YOLO系列、SSD、Retina-Net、Efficient-Det和Corner-Net是一阶段检测器,其优点是检测速度快。R-CNN、Cascade R-CNN、Fast R-CNN和Faster R-CNN是双阶段检测器,其优势在于高检测精度。
随着计算机视觉领域的发展,物体检测的需求也在增长,如小物体检测和密集物体检测。已经取得了一定的检测效果,并提供了一些新颖的方法和解决方案。尽管大多数问题已得到解决,但在细长物体检测与常规物体检测之间仍然存在显著差异。对于细长物体检测,使用了上述一阶段和两阶段检测器,如Faster R-CNN、RepPoint和FCOS。测试仅包含MS-COCO数据集中的细长物体图像,如刀子、叉子、滑雪板和滑板。最高检测准确率AP达到了20.7%。这是因为标准卷积仅在固定位置对输入特征图进行采样,无法自动调整采样点以适应细长物体的特点。例如,如图1(b)所示,细长物体上的采样点比图1(a)的标准卷积更准确。由于Transformer的自注意力层是全局而非局部二维邻域结构,其图像特定的归纳偏置远小于CNN。诸如Detection Transformer(DETR)的研究开始将Transformer应用于物体检测。结果显示,Transformer中的注意力机制具有强大的关系建模能力。通过扫描全局图像获得主要目标区域,有效地关注图像中的细长物体以提高输出质量。此外,数据维度降低可以减少高维数据输入的计算负载。
DETR的一个缺点是使用Transformer注意力机制来获取采样点仍然耗时。Deformable DETR成功地结合了Transformer和稀疏空间采样位置的可变形卷积,解决了DETR收敛速度慢和复杂度高的问题。Deformable DETR中的可变形注意力模块仅在参考点周围获取关键采样点。通过为每个查询分配固定数量的重要点,可以减少收敛和特征空间分辨率问题。它可以通过更少且更精确的采样点提供高效且更好的细长物体检测性能。
此外,虽然Deformable DETR仅仅在Transformer中添加了一个可变形注意力模块,但对于检测细长物体来说,骨干网络中的特征提取仍然不足。当使用CNN在骨干网络中提取特征时,很难适应细长物体的形状。因此,我们提出了基于可变形特征的注意力机制DETR(DFAM-DETR)检测器用于细长物体检测。该检测器基于Deformable DETR,设计了基于可变形特征的注意力机制(DFAM),用于采样细长物体特征并通过可变形卷积和注意力机制增强特征提取能力。可变形卷积可以自适应地调整图像中样本点的位置,确保样本点位于图像的兴趣区域以避免背景影响。除了可变形卷积外,DFAM还应用了注意力机制进行细长物体检测。注意力机制可以根据通道和空间维度学习强调或抑制哪些信息。因此,通过关注重要特征并抑制无关特征,提高了识别细长物体的有效性。
总之,所提出的DFAM-DETR检测器是在Deformable DETR基础上专门为细长物体检测而修改的。DFAM旨在捕捉细长物体的具体特征。因此,DFAM-DETR检测器相比于Deformable DETR大大提高了细长物体检测的准确性和效率。
2 相关工作
物体检测分为单阶段检测器和双阶段检测器。单阶段检测器不需要区域建议阶段,并可以直接生成物体类别的概率和位置。例如,YOLO系列、SSD、DSSD、Retina-Net、Efficient-Det、FCOS和Corner-Net是一些典型的单阶段检测器,它们的优点是检测速度快。双阶段检测器首先需要创建区域建议,然后对区域建议进行物体分类和定位。例如,R-CNN、Cascade R-CNN、Fast R-CNN和Faster R-CNN检测器的优点是高检测精度。
尽管使用卷积进行物体检测已达到高精度,但在细长物体上的检测性能仍然较差。卷积方法难以捕捉细长物体的特征。流行的物体检测器如Faster R-CNN、FCOS和RepPoints采用标准卷积。此外,基于FCOS和RepPoints改进的专门用于细长物体检测的检测器仍然显示出较弱的检测精度。Transformer的自注意力机制能够遍历序列的每个元素,并通过聚合整个序列的信息来更新它。DETR是一种基于Transformer的物体检测器。它结合了二分匹配损失和具有强大关系建模能力的Transformers。然而,与流行检测器相比,DETR需要更多的训练轮次才能实现收敛。由于高分辨率特征图的复杂性,DETR在检测小物体方面的性能相对较差。Deformable DETR是一种有效且高效的检测器,用于处理稀疏空间位置,弥补了DETR在元素关系建模能力方面的不足。Deformable DETR的可变形注意力模块仅关注参考点周围的一小组关键采样点,而不考虑特征图的空间大小。通过为每个查询分配少量固定数量的关键字,可以缓解收敛和元素的空间分辨率问题。
然而,Deformable DETR只是将可变形注意力模块引入到Transformer中。对于细长物体而言,骨干网络中的特征提取仍采用卷积,这并不能提供足够的解决方案。因此,我们提出基于可变形卷积特征和注意力机制的DFAM,以实现有效的细长物体检测。不同于可变形DETR,DFAM利用可变形卷积和注意力机制的自适应采样点,在骨干网络中聚合整个输入序列的信息,以准确识别细长物体并获得更好的细长物体检测精度。
3 方法
DFAM-DETR基于Deformable DETR,后者由三部分组成:ResNet作为骨干网络,带有编码器-解码器的Transformer,以及前馈神经网络(FFN)。如图2所示,我们的改进主要集中在骨干网络上。基于ResNet设计了用于提取细长物体特征的可变形特征注意力机制(DFAM)。Transformer充分利用其强大的建模能力和可变形注意力模块的采样能力来提高细长物体检测的准确性。FFN用于预测图片中物体的类别和位置。
3.2 骨干网络中的特征提取
骨干网络作为模型的核心特征提取功能,预期能够充分挖掘图像中有意义的语义信息。ResNet骨干网络中的卷积难以适应细长物体的独特形状。我们提出DFAM通过改进ResNet中的一个层(C5)来增强特征提取能力,详见图2。首先,ResNet为第3、4和5阶段生成特征图,分别标记为C3、C4、C5。为了构建可变形的C5特征图,我们将ResNet最后一阶段的卷积替换为可变形卷积,并将其输入到注意力机制中生成DFAM特征图。其次,为了捕捉细长物体的不同尺度,C3、C4、可变形C5以及DFAM特征图经过调整以生成多尺度细长物体特征图。C3、C4以及可变形C5特征图通过1x1步长为1的卷积得到前三个特征层。然后,通过在DFAM特征图上进行3x3步长为2的卷积获得最后一层特征图,详见图3。因此,从骨干网络中捕获到了多尺度细长物体特征图。最后,将这些多尺度细长物体特征图输入到Transformer中,以增强语义和几何信息的表示能力。
3.3 所提出的基于可变形特征的注意机制
如图4所示,DFAM结合了可变形卷积自适应采样点的能力与注意力机制聚焦关键特征的能力,以适应细长物体的特点并增强特征提取能力。
标准卷积核的几何结构和采样点在卷积神经网络中是固定的,其泛化能力有限,因此几何变换具有内在限制。由于这一限制,模型只能从固定区域获取特征信息,无法适应细长物体的特征,从而限制了它们的特征提取能力。因此,我们建议在骨干网络中使用可变形卷积代替标准卷积来提取细长物体的特征。图5展示了标准卷积与可变形卷积在细长物体上的采样点对比。与标准卷积相比,可变形卷积在特征图的每个采样位置包含一个可学习的偏移量,使得可变形卷积能更好地适应细长物体的特征。此外,尽管可变形卷积不会显著增加模型的参数和FLOPS,过多的可变形卷积层会大幅增加实际推理时间。因此,为了平衡效率与准确性,我们建议将最后一阶段C5中的3x3卷积层替换为3x3可变形卷积层。
可变形卷积可以通过额外的偏移量调整空间采样,并且无需额外监督即可学习目标任务的偏移量。如图4所示,二维偏移量可以通过另一个并行的标准卷积单元计算得出,也可以通过梯度反向传播端到端地学习以生成特征图中的新采样位置。对于一个尺寸为N x N的采样域R,R = {(0, 0); (0, 1); ...; (N-1, N-1)},以及输入图像数据x,在输出特征图x上的每个位置p0,可变形卷积的公式如下:
其中是采样域中的所有位置,是每个采样点的偏移位置,而是对应的权重。
其中(xoffset;yoffset)分别表示某个位置的x坐标和y坐标的偏移量。由于偏移量 通常是分数形式,而离散图像数据无法使用非整数坐标,因此在公式(1)中采用了双线性插值。直观效果是可变形卷积可以根据细长物体的特征调整采样点的位置。关键是要显示图像中细长物体的通道内容和空间位置,而不是背景区域。注意力机制专注于图像中细长物体的特征,并忽略无关的特征。因此,我们提出了一种基于可变形卷积的注意力机制,以便更好地聚焦细长物体的特征。所提出的注意力机制包括通道和空间两个维度,以更好地提取细长物体的特征,详见图4。
空间注意力集中在特征图中激活了哪些空间信息。空间注意力关注细长物体的空间层面,以增强有价值的空间局部信息,同时抑制细长物体的背景噪声信息。通过将可变形C5特征图输入到空间注意力机制中获得空间注意力特征图(见图4)。首先,使用平均池化和最大池化对可变形C5特征图进行处理,生成两个一维特征图。其次,通过连接两个一维特征图创建二维特征图。然后,通过使用7x7卷积核进行卷积创建一个新的空间注意力权重一维图,以确定细长物体的空间注意力权重。为了将空间注意力权重压缩到一个范围内,使用sigmoid函数。最后,通过逐元素乘法将空间注意力权重图 (W) 应用于初始特征图 ,得到空间注意力特征图。公式定义如下:
接下来使用通道注意力传输空间注意力特征图。通道注意力模块为不同维度的特征设置权重,从而使对细长物体特征表示贡献最大的特征得以突出。如图4所示,首先使用平均池化和最大池化层处理空间注意力特征图,这可以学习输入特征的统计信息。其次,池化层的输出经过由一维卷积层和全连接层组成的共享网络处理,并通过逐元素相加的方式连接。最后,使用sigmoid激活函数。为了获得最终的DFAM特征图,将学习到的一维通道注意力权重图通过逐元素乘法应用于空间注意力特征图上。公式定义如下:
3.4 Transformer编码器和解码器
与只能获取局部特征的卷积不同,Transformer利用基于注意力机制的编码器和解码器来获取从全局到特定的特征。我们利用了Transformer编码器和解码器。作为输入,编码器使用多尺度的细长物体特征图。编码器的变换层执行多头注意力来捕捉全局细长物体特征的上下文,从而定位细长特征图中不同像素之间的关联。在解码器中引入了目标查询来缩小物体搜索范围。最终,Transformer可以聚焦于图像中的细长物体。关于Transformer在目标检测中的详细信息可以在Deformable DETR中找到。
3.5 损失函数
本研究中的损失函数与Deformable DETR保持一致,总损失包括分类损失和回归损失。在模型训练阶段,使用匈牙利算法来匹配真实标签(GT)与模型预测结果。采用匈牙利算法(二分图匹配方法)来确定匹配损失最小的最佳排列。最佳匹配结果用于确定损失函数。
4 实验与结果
4.1 数据集
本研究使用的细长物体数据集是从MS-COCO2017中手动提取的。它包括如牙刷、滑雪板、冲浪板等细长物体。总共使用了25,424张训练图像进行训练,并有1,077张图像用于验证。通过对数据进行随机裁剪实现了数据增强。
4.2 实验
实验环境
实验是在Xeon 3104和NVIDIA Tesla V100 16GB显卡上进行的,并使用Adam优化器进行了训练。变换器的初始学习率为,而骨干网络的学习率为。随着训练epoch数的增加,每20个训练epoch学习率降低10倍。批量大小设置为2,权重衰减和动量分别设置为0.0001和0.9。
实验结果
本研究中使用ResNet50作为骨干网络。首先,评估了预训练的Faster R-CNN、RepPoints、FCOS和DETR探测器对细长物体的检测性能,见表1。与Faster R-CNN、RepPoints和FCOS相比,使用基于变换器的探测器显著提高了细长物体的检测精度。DETR相比于Faster R-CNN提升了10.9%的AP值,对于AP50提升了14.2%。DETR在APS、APM和APL上的检测精度均有显著提升。使用DETR后,APS提高了5.9%,APM提高了13.9%,APL提高了16.5%,相较于Faster R-CNN。以上实验表明Transformer在细长物体检测上的有效性。
其次,使用DETR、Deformable DETR和DFAM-DETR对数据集进行训练和评估,比较它们在细长物体检测精度上的表现。ResNet50被用作骨干网络。我们使用ImageNet上预训练的权重初始化我们的骨干网络。变换器使用随机初始化进行训练。结果显示,DFAM-DETR在AP、AP50和AP75上的检测精度有所提高,见表2。与DETR相比,提出的DFAM-DETR在AP上提高了4.6%,在AP50上提高了4.3%。DFAM-DETR在AP上比Deformable DETR高出2%,AP50上高出2.2%。此外,DFAM-DETR在小物体和中等物体检测精度上也有显著提升。小物体检测精度提高了4.1%,中等物体检测精度提高了6.3%。然而,与Deformable DETR相比,大物体检测精度下降了0.6%。这可能是由于维度探索不足、感受野敏感性限制或缺乏更大感受野所需的卷积核造成的。
图6展示了Deformable DETR和所提出的DFAM-DETR的检测精度及收敛曲线。DFAM-DETR显示出比Deformable DETR更高的AP检测精度。此外,DFAM-DETR的训练epoch减少了2倍。如图7所示,DFAM-DETR的训练损失显著低于Deformable DETR。再次证明了DFAM-DETR具有更快的收敛速度且在细长物体检测上表现更佳。
5 结论
本研究提出了基于Deformable DETR的细长物体探测器DFAM-DETR。与其他流行的探测器相比,它在细长物体检测方面提供了更高的检测精度。通过DFAM的可变形卷积和注意力机制,克服了细长物体检测中传统卷积固定采样点的局限性。DFAM-DETR探测器通过提高细长物体特征提取能力,实现了更高的检测精度和收敛速度。未来的研究将扩展DFAM-DETR的检测能力和不同尺寸细长物体上的表现。
—END—
论文链接:https://arxiv.org/pdf/2204.10667v1
请长按或扫描二维码关注本公众号
喜欢的话,请给我个在看吧!