paper link:https://arxiv.org/pdf/2106.08322v1.pdf
Introduction
文章提出了一个动态的head架构,通过attention机制将多种不同表示形式(corner,center,anchor box)的目标检测方法统一为一个。通过
特征层间的self-attention能够识别不同尺度物体(scale-awareness),空间位置间的self-attention能够帮助识别不同形状物体(spatial-awareness),输出的通道间的self-attention能够用于关注特定的任务(task-awareness)。通过结合这三种self-attention,作者在不引入计算cost的情况下极大地提高了目标检测头的表示能力。使用SOTA backbone Swin-L时,将COCO的结果记录刷到了60.6AP!
上文提到的scale-aware是指一张图片中有不同尺度的物体需要识别;spatial-aware是指同一类物体有不同形状、朝向和不同视角;task-aware是指物体可以选用不用的表示方式,如边框、中心点、corner点等,不同的表示方式有不同的学习目标。而本文则是要设计一个同时满足这三种需求的unified head——dynamic head。
如何做到整合scale-awareness, spatial-awareness,和 task-awareness呢?
如果将backbone的输出视为一个3维的tensor,即 level × space ×channel,这个unified head就可以被看作一个attention学习问题。一个直观的方案是在此tensor之上构造一个full self-attention机制,然而,优化问题难以解决并且计算cost 难以承受。
而作者提出在分别在level-wise,spatial-wise,和channel-wise等每个独特的特征维度上分别地应用attention 机制。scale-aware attention只应用在level dimension,对于一个物体,scale-aware attention会根据其scale来学习各种语义level上的相关重要性来增强相应于其scale 的level上的特征。同理spatial-aware attention学习空间位置上的关联表示。 task-aware attention作用于channel,根据物体返回的不同卷积核响应,让不同的channel响应不用的任务。通过这种方式实现了一个作用域detection head的unified attention机制。
Approach
将L层的特征图通过上采样或者下采样来resize到一个中间层,然后concatenate起来得到特征图Fin={ Fi}i=1LF_{in} = \left\{F_i\right\}_{i=1}^LFin={ Fi}i=1L,这个特征图的尺寸可被视为一个4维的tensor F∈RL×H×W×CF \in R^{L×H×W×C}F∈R

本文介绍了一种新的目标检测架构DynamicHead,通过整合scale-aware、spatial-aware和task-aware三种attention机制,统一了多种目标表示形式。这种方法不仅提高了检测精度,在COCO数据集上达到了60.6AP,还简化了网络结构。
最低0.47元/天 解锁文章
236

被折叠的 条评论
为什么被折叠?



