Dynamic Head: Unifying Object Detection Heads with Attentions论文阅读

paper:https://arxiv.org/pdf/2106.08322v1.pdf
code: https://github.com/microsoft/DynamicHead

摘要

在目标检测中,定位和分类相结合的复杂性导致了方法的蓬勃发展。以往的工作试图提高各种目标检测head的性能,但未能给出统一通用的观点。论文提出一个新的dynamic head框架通过attention来统一目标检测head,通过在尺度感知的特征层之间空间感知的空间位置之间以及任务感知的输出通道内连贯地结合多种self-attention,该方法显著地提高了目标检测head的表示能力,而无需任何计算开销。在coco基准上的实验证明了提出的dynamic head框架的有效性,在ResNeXt-101-DCN backbone上,实现了新的SOTA,54.0AP。更换更强大的backbone:Swin transformer,实现了60.6mAP,COCO基准的新SOTA。

介绍

开发一个好的目标检测head面临的挑战可以归纳为三类。

  1. 由于多个尺度不一的目标会出现在一张图上,所以head应该是scale-aware的;
  2. 在不同的视角下,物体通常以截然不同的形状、旋转和位置出现,所以head应该是 spatial-aware的。
  3. 由于目标可以有多种不同的表示(边框,中心,边角点),所以head应该是task-aware的。

论文中提出了一个统一的目标检测head,Dynamic head,来统一scale-awareness, spatial-awareness, task-awareness。
可以将backbone】的输出看做一个3-d(level x space x channel)的tensor,统一这三个维度的awareness可以看做是一个attention学习问题;
一种直接的方法是:直接使用整个self-attention机制来处理这个tensor,但是这样处理,是很困难去优化的,并且计算花费也是不可承受的。

作者将注意力机制分开处理为level-wise、spatial-wise、channel-wise,scale-aware注意力模块只在level维度处理,学习多个语义层的相对重要性,根据对象的尺度在适当的层次上增强特征。spatial-aware注意力模块只在space(h x w)维度处理,在空间位置上学习连贯的区别表示。task-aware注意力模块值处理channels,根据对象的不同卷积核响应,引导不同的特征通道分别支持不同的任务(如分类、边框回归和中心/关键点学习)。
实验证明Dynamic head可以统一提高检测器1.2% ~ 3.2%的mAP,相比于EffcientDet和SpineNet,dynamic head仅使用1/20的训练时间,能够实现更好的精度。

相关工作

Scale-awareness: 特征金字塔网络中,不同层级的特征通常是从网络的不同深度提取的,这就造成了明显的语义差距,直接将不同层级的特征层融合不是最优的。为了解决这个问题,PANet提出通过一个自下而上的路径来增强低层的特征,Libra r-cnn引入平衡采样和平衡特征金字塔,SEPC提出一个金字塔卷积来提出尺度和空间特征。

Spatial-awareness: 卷积神经网络在学习图像中存在的空间变换方面受到限制,一些工作通过增加模型size或者探索更强的数据增强来缓解这个问题,这导致了在inference和training过程中更多的计算花费。之后,提出了新的卷积操作来提升卷积对空间变换的学习,例如空洞卷积,deformable conv v1/v2。

Task-awareness: 最近,越来越多的研究发现,目标的各种表示可能会提高性能。Fcos提出用中心表示法以逐像素预测的方式解决目标检测问题;ATS

评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值