论文阅读|目标检测之Dynamic head

最新推荐文章于 2025-01-08 01:00:00 发布

原创

最新推荐文章于 2025-01-08 01:00:00 发布 · 3.8k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉

本文介绍了一种新的目标检测架构DynamicHead，通过整合scale-aware、spatial-aware和task-aware三种attention机制，统一了多种目标表示形式。这种方法不仅提高了检测精度，在COCO数据集上达到了60.6AP，还简化了网络结构。

paper link:https://arxiv.org/pdf/2106.08322v1.pdf

Introduction

文章提出了一个动态的head架构，通过attention机制将多种不同表示形式（corner，center，anchor box）的目标检测方法统一为一个。通过
特征层间的self-attention能够识别不同尺度物体（scale-awareness），空间位置间的self-attention能够帮助识别不同形状物体（spatial-awareness），输出的通道间的self-attention能够用于关注特定的任务（task-awareness）。通过结合这三种self-attention，作者在不引入计算cost的情况下极大地提高了目标检测头的表示能力。使用SOTA backbone Swin-L时，将COCO的结果记录刷到了60.6AP!

上文提到的scale-aware是指一张图片中有不同尺度的物体需要识别；spatial-aware是指同一类物体有不同形状、朝向和不同视角；task-aware是指物体可以选用不用的表示方式，如边框、中心点、corner点等，不同的表示方式有不同的学习目标。而本文则是要设计一个同时满足这三种需求的unified head——dynamic head。

如何做到整合scale-awareness, spatial-awareness,和 task-awareness呢？

如果将backbone的输出视为一个3维的tensor，即 level × space ×channel，这个unified head就可以被看作一个attention学习问题。一个直观的方案是在此tensor之上构造一个full self-attention机制，然而，优化问题难以解决并且计算cost 难以承受。

而作者提出在分别在level-wise，spatial-wise，和channel-wise等每个独特的特征维度上分别地应用attention 机制。scale-aware attention只应用在level dimension，对于一个物体，scale-aware attention会根据其scale来学习各种语义level上的相关重要性来增强相应于其scale 的level上的特征。同理spatial-aware attention学习空间位置上的关联表示。 task-aware attention作用于channel，根据物体返回的不同卷积核响应，让不同的channel响应不用的任务。通过这种方式实现了一个作用域detection head的unified attention机制。