【论文笔记】：ASFF:Learning Spatial Fusion for Single-Shot Object Detection

最新推荐文章于 2025-03-19 13:38:58 发布

原创最新推荐文章于 2025-03-19 13:38:58 发布 · 8.1k 阅读

51 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

特征层面同时被 2 个专栏收录

21 篇文章

订阅专栏

自适应

3 篇文章

订阅专栏

本文提出自适应空间特征融合（ASFF）策略，解决基于特征金字塔的单阶段检测器中不同尺度特征不一致的问题。ASFF通过学习融合权重，增强尺度不变性，提高检测性能。在YOLOv3基线上实现性能提升，特别是在MS COCO数据集上的速度与精度平衡。

部署运行你感兴趣的模型镜像

&Title

在这里插入图片描述

&Summary

不同特征尺度之间的不一致性是基于特征金字塔的单阶段检测器的主要缺陷。

本文提出了一种新的基于数据驱动的金字塔特征融合策略，称为自适应空间特征融合（ASFF）。它学习了空间过滤冲突信息的方法来抑制不一致性，从而提高了特征的尺度不变性，并且开销小。

所提出的方法使网络能直接学习如何在空间上过滤其他层次的特征，以便只保留有用的信息进行组合。在每个空间位置，不同层次的特征被自适应地融合，也就是说，一些特征在这个位置携带矛盾的信息时可能被过滤掉，而一些特征可能以更具争议性的线索支配。

文章最大的创新点： 提出了一种新的特征融合的方式ASFF，通过学习权重参数的方式将不同层的特征融合到一起，作者证明了这样的方法要优于通过concatenation或者element-wise的方式。

contributions：

提出一种自适应特征融合方法，ASFF
ASFF可以提高FPN形式网络的性能
借助ASFF策略和可靠的YOLOv3基线，在MS COCO数据集上实现了最佳的速度精度折衷

&Research Objective

解决单发检测器特征金字塔的不一致性。

特征金字塔的一大缺点是不同尺度特征的不一致性，特别是对于一阶段检测器。确切地说，在FPN形式的网络中启发式地选择特征，高层语义信息中检测大目标、低层语义信息中检测小目标。当某个目标在某一层被当做正类时，相应地该目标区域在其它层被当做负类。如果一幅图像中既有大目标也有小目标，那么不同层间的特征的不一致性将会影响最后检测结果（大目标的检测在某一层，小目标的检测在另一层，但是网络的多尺寸检测不会仅仅检测一个特定的区域，而是综合整幅图进行检测。在特征融合时，其它层很多无用的信息也会融合进来）。

&Problem Statement

为了充分利用高层特征的语义信息和底层特征的细粒度特征，很多网络结构都会采用FPN的方式输出多层特征，但是无论是类似于YOLOv3还是RetinaNet他们多用concatenation或者element-wise这种直接衔接或者相加的方式，作者认为这样并不能充分利用不同尺度的特征。

&Method(s)

Strong Baseline

采用YOLOv3框架，因为它简单高效。使用其他论文方法，在改进基础上，利用训练过程中的一系列技巧，如混合算法、余弦学习率调度和同步批处理非恶意化技术。除了这些技巧之外，还添加了一个无锚分支来与基于锚的分支一起运行，并利用的锚引导机制来改进结果。此外，在原光滑L1损失上采用了额外的交并（IoU）损失函数，以获得更好的边界盒回归。
在这里插入图片描述
可以看到，这个baseline将yolov3的AP从33%提升到了38%，高达5个点之多。

Adaptively Spatial Feature Fusion

与以往的基于元素和或级联的多层次特征融合方法不同，核心思想是自适应地学习各尺度特征映射融合的空间权重。
在这里插入图片描述
首先通过FPN产生level1-level3不同尺度的特征图，作者使用ASFF（adaptively spatial feature fusion）思想进行融合，思想就是level1-level3个尺度图分别再融合成3个对应尺度的特征图，融合的权重自适应调整。拿ASFF-3作为例子，首先将3个尺度的图都resize到level3尺度大小，然后学习一个融合权重，这样可以更好地学习不同特征尺度对于预测特征图的贡献。

Consistency Property
在这里插入图片描述

&Evaluation

在这里插入图片描述
实验证明，asff比concat和sum的方式更有效，在baseline的基础上提升了map2个点之多。

&Notes

ASFF优点：

由于搜索最优融合的操作是差分的，因此可以方便地在反向传播中学习；
它对骨干模型非常敏感，适用于具有特征金字塔结构的单点探测器；其实现简单，计算量小。

不一致性：
大实例通常与上feature map相关联，小实例与下feature map相关联。当某一对象在某一级别的feature map中被指定为正时，其他级别的feature map中的相应区域被视为背景。因此，如果一幅图像同时包含大小物体，则不同层次特征之间的冲突往往占据特征金字塔的主要部分。

代码理解：作者：chenzy_hust

class ASFF(nn.Module): 
     def __init__(self, level, rfb=False, vis=False): 
        super(ASFF, self).__init__() 
        self.level = level 
        self.dim = [512, 256, 256] 
        self.inter_dim = self.dim[self.level] 
        # 每个level融合前，需要先调整到一样的尺度
        if level==0: 
            self.stride_level_1 = add_conv(256, self.inter_dim, 3, 2) 
            self.stride_level_2 = add_conv(256, self.inter_dim, 3, 2) 
            self.expand = add_conv(self.inter_dim, 1024, 3, 1) 
        elif level==1: 
            self.compress_level_0 = add_conv(512, self.inter_dim, 1, 1) 
            self.stride_level_2 = add_conv(256, self.inter_dim, 3, 2) 
           self.expand = add_conv(self.inter_dim, 512, 3, 1) 
       elif level==2: 
           self.compress_level_0 = add_conv(512, self.inter_dim, 1, 1) 
           self.expand = add_conv(self.inter_dim, 256, 3, 1) 
       compress_c = 8 if rfb else 16  #when adding rfb, we use half number of channels to save memory 

       self.weight_level_0 = add_conv(self.inter_dim, compress_c, 1, 1) 
       self.weight_level_1 = add_conv(self.inter_dim, compress_c, 1, 1) 
       self.weight_level_2 = add_conv(self.inter_dim, compress_c, 1, 1) 

       self.weight_levels = nn.Conv2d(compress_c*3, 3, kernel_size=1, stride=1, padding=0) 
       self.vis= vis 
       
    def forward(self, x_level_0, x_level_1, x_level_2): 
        if self.level==0: 
           level_0_resized = x_level_0 
           level_1_resized = self.stride_level_1(x_level_1) 
 
           level_2_downsampled_inter =F.max_pool2d(x_level_2, 3, stride=2, padding=1) 
           level_2_resized = self.stride_level_2(level_2_downsampled_inter) 
 
       elif self.level==1: 
           level_0_compressed = self.compress_level_0(x_level_0) 
           level_0_resized =F.interpolate(level_0_compressed, scale_factor=2, mode='nearest') 
           level_1_resized =x_level_1 
           level_2_resized =self.stride_level_2(x_level_2) 
       elif self.level==2: 
           level_0_compressed = self.compress_level_0(x_level_0) 
           level_0_resized =F.interpolate(level_0_compressed, scale_factor=4, mode='nearest') 
           level_1_resized =F.interpolate(x_level_1, scale_factor=2, mode='nearest') 
          level_2_resized =x_level_2 
 
       level_0_weight_v = self.weight_level_0(level_0_resized) 
       level_1_weight_v = self.weight_level_1(level_1_resized) 
       level_2_weight_v = self.weight_level_2(level_2_resized) 
       levels_weight_v = torch.cat((level_0_weight_v, level_1_weight_v, level_2_weight_v),1) 
       # 学习的3个尺度权重
       levels_weight = self.weight_levels(levels_weight_v) 
       levels_weight = F.softmax(levels_weight, dim=1) 
       # 自适应权重融合
       fused_out_reduced = level_0_resized * levels_weight[:,0:1,:,:]+\ 
                           level_1_resized * levels_weight[:,1:2,:,:]+\ 
                           level_2_resized * levels_weight[:,2:,:,:] 
 
       out = self.expand(fused_out_reduced) 
 
       if self.vis: 
           return out, levels_weight, fused_out_reduced.sum(dim=1) 
       else: 
          return out