目标检测论文解读五(YOLOF)

YOLOF是2021年CVPR上提出的一种目标检测新方法,挑战了FPN的多尺度特征融合思路。研究发现,仅使用一级特征(SiMo编码器)就能取得接近FPN的性能。YOLOF通过扩展编码器增加接受域覆盖,解决尺度问题,同时采用均匀匹配策略平衡正锚分布。解码器则包括分类和回归头,以生成最终预测框。这种方法简化了目标检测架构,提高了效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2021年3月发表在CVPR上的You Only Look One-level Feature (YOLOF)指出FPN的成功在于其对目标检测优化问题的分治解决,而不是多尺度特征融合。

基于这样的思想,YOLOF引入了一种替代的方法:只使用一级特征进行检测,而不是采用复杂的特征金字塔。在该方法中,作者提出了扩展编码器和均匀匹配两个关键组件,并对其进行了很大的改进。

作者将FPN视为多进多出(Multiple In Multiple Out, MiMo)编码器,并和单进多出(SiMo)、多进单出(MiSo)和单进单出(SiSo)编码器相比较,如下图所示:

在这里插入图片描述
令人惊讶的是,只有一个输入特征C5且不进行特征融合的SiMo编码器,可以达到与MiMo编码器(即FPN)相当的性能。性能差距小于1mAP。相比之下,在MiSo和SiSo编码器中,性能显著下降。这些现象说明:

  1. C5特征为不同尺度的物体检测提供了足够的背景,这使得SiMo编码器能够实现可比的结果
  2. 多尺度特征融合效益远没有分治效益重要。

通过将SiSo的性能与MiMo编码器相比较。作者发现SiSo编码器导致性能下降的原因是:

  1. C5特征接受域匹配的尺度范围有限,影响了对不同尺度对象的检测性能。作者采用残差块来解决这一问题,它接收来自主干的输入并分配表示进行检测
  2. 单级稀疏锚在正锚上的不平衡问题。作者采用均匀锚来解决这一问题,执行分类和回归任务,并生成最终的预测框。

因此,YOLOF的检测结构如下:

  1. 主干
  2. 编码器,接收来自主干的输入并分配表示进行检测
  3. 译码器,执行分类和回归任务,并生成最终的预测框。
    在这里插入图片描述

1. 编码器

为了解决C5特征接受域匹配的尺度范围有限的问题。作者使用编码器,它接收来自主干的输入并分配表示进行检测。

编码器的结构如下,它包含两个主要组件:投影块和剩余块。

  1. 投影层首先应用一个1×1卷积层来减小通道维数,然后添加一个3×3卷积层来细化语义上下文,这与FPN相同。
  2. 剩余块包含四个膨胀率不同的残差块,生成具有多个接受域的输出特征,覆盖所有对象的尺度。每个残差块由三个连续的卷积组成:一个1×1卷积使通道减少,然后使用一个3×3空洞卷积来扩大接受域,最后,1×1卷积恢复通道的数量。

在这里插入图片描述
下面介绍残差块是如何解决编码器的输出特征能够覆盖不同尺度的所有对象的问题。

  1. 如图(a)所示,C5特征的接受域只能覆盖有限的尺度范围。
  2. 作者首先通过叠加标准和膨胀卷积来扩大C5特征的接受域,扩大的过程为将一个大于1的倍数乘以所有原来覆盖的尺度,如图(b)所示,与图(a)相比,整个比例尺范围向更大的比例尺范围转移。
  3. 通过残余块添加相应的特征,将原始尺度范围与放大后的尺度范围结合起来,得到一个包含多个接受域的输出特征,如图(c )所示。

在这里插入图片描述

2. 解码器

解码器由两个并行的任务专用头组成:分类头和回归头,如下图所示。回归头部有四个卷积层,而分类头部有两个。

在这里插入图片描述
正锚点的定义是目标检测优化问题的关键。在基于锚的探测器中,定义正的策略主要是通过测量锚和标签框之间的IoU,如果锚点和标签框的最大IoU大于临界值0.5,则该锚点将被设置为正,称为Max-IoU匹配。

在MiMo编码器中,考虑到分治机制,Max-IoU匹配使每个尺度的地面真实框能够生成足够数量的正向锚。然而,当采用SiSo编码器时,锚的数量大幅减少,导致锚稀疏。在使用Max-IoU匹配时,大标签框比小标签框产生更多的正锚,这导致正锚的不平衡问题,如下图所示。

真实标签

为了解决正锚的不平衡问题,作者提出了统一匹配策略:采用距离最近的锚作为每个标签框的正锚,这确保了所有的标签框都可以统一匹配相同数量的正锚,而不管它们的大小。正样本的平衡确保所有的标签框都参与训练并做出平等的贡献。此外,在Max-IoU匹配之后,均匀匹配中作者设置了IoU阈值,忽略了大IoU(>0.7)负锚点和小IoU(<0.15)正锚点。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一只蓝鲸鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值