论文翻译 | TOOD：《TOOD: Task-aligned One-stage Object Detection》详细解读

最新推荐文章于 2024-09-23 20:17:10 发布

原创

最新推荐文章于 2024-09-23 20:17:10 发布 · 3.3k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #计算机视觉 #深度学习

该博客探讨了单阶段目标检测中分类和定位任务的空间错位问题，提出了一种名为TOOD（Task-aligned One-stage Object Detection）的方法。TOOD通过Task-aligned Head（T-Head）和Task Alignment Learning（TAL）来增强任务交互和对齐预测。T-Head使用任务交互特征和任务对齐预测器，而TAL则在训练过程中通过任务对齐度量选择高质量锚点并调整损失。实验结果显示，TOOD在单模型单尺度测试中达到51.1AP，表明了其在对齐两个任务预测方面的有效性。

在这里插入图片描述

摘要：

提出问题：

单阶段目标检测通常是通过优化两个子任务来实现的：目标分类和定位，使用具有两个平行分支的头部，这可能会导致两个任务之间的预测存在一定程度的空间错位（spatial misalignment）。
解决方案：

任务对齐的单阶段对象检测(TOOD)，以基于可学习的方式明确地对齐两个任务。

TOOD：
- Task-aligned Head (T-Head)
  
  在学习任务交互式和特定任务的功能之间提供了更好的平衡，并且通过任务对齐的预测器（task-aligned predictor）更加灵活地学习对齐。
- Task Alignment Learning (TAL)
在训练过程中，通过设计的样本分配方案（sample assignment scheme）和任务对齐的损失（task-aligned loss），明确地找到更接近（甚至统一）两个任务的最佳锚点。
实验结果：

TOOD achieves a 51.1 AP at single-model single-scale testing
贡献：

TOOD可以更好地对齐目标分类和定位两个任务。
- T-head
  
  增强分类和定位之间的交互作用，同时保持它们的特征，并进一步对齐这两个任务的预测；
- TAL
  
  为所提出的预测器提供学习信号；

1. 引言

目标检测主要的两个子任务：
- 分类任务：学习专注于物体的关键或显著部分的区别性特征。
- 定位任务：精确地用边界定位整个物体。
目前两个子任务存在的问题（作者认为）：

由于分类和定位的学习机制不同，两个任务的学习特征的空间分布可能会不同，当使用两个独立的分支进行预测时，会导致一定程度的错位。
目前单阶段目标检测器的重点（作者认为存在问题）

试图通过关注目标的中心来预测两个独立任务的一致输出。这些工作认为物体中心的锚（即无锚检测器的锚点，或基于锚的检测器的锚盒）可能对分类和定位给出更准确的预测。
- FCOS、ATSS
  
  使用中心度分支，增强物体中心附近的锚预测的分类得分，并为相应锚的定位损失分配更大的权重。
- FoveaBox
  
  将放置在物体的一个预定义的中心区域内的锚视为正样本。
目前单阶段目标检测器的局限（作者认为）
- 分类和定位独立开了（个人认为以后的方向更应该趋向于分开两个任务，独立预测）
  
  最近的一级检测器通过并行使用两个独立的分支（即heads）来独立地执行目标分类和定位。
  
  问题：这种不同的双分支设计可能会导致两个任务之间缺乏交互，导致执行任务时预测不一致。
  
  举例：如图1中的“Result”列所示，ATSS检测器识别一个“餐桌”的对象（用红色斑块显示的锚表示），但更准确地定位另一个“披萨”的对象（红色边界框）。
- 不可知任务的样本分配
  
  大多数无锚检测器：使用基于几何的分配方案来选择对象中心附近的锚点来进行分类和定位。
  
  大多数基于锚的检测器：通常通过计算锚盒和GT之间的IoUs来分配锚盒。
  
  问题：用于分类和定位的最佳锚点往往是不一致的，并且可能根据物体的形状和特征而有很大的差异。因此，在非最大抑制(NMS)期间，一个精确的边界框可能会被一个较不精确的边界框所抑制。
  
  举例：
  - 如图1中ATSS的“Score”和“IoU”分布所示，广泛使用的样本分配方案是任务不可知论性的，因此可能很难对这两个任务做出准确而一致的预测；