点击上方“CVer”,选择加"星标"置顶
重磅干货,第一时间送达
本文转载自:Smarter
先简单回顾一下之前加快DETR收敛的检测器是怎么做的,Deformable DETR、TSP,另外还有一篇比较特殊的Sparse R-CNN,后面会聊一下SMCA和Sparse R-CNN之间的联系。
Deformable DETR通过采样的稀疏性来加快DETR的收敛速度,详细的可以看之前的文章,TSP通过去掉decoder,将FCOS/R-CNN和DETR组合,来加快DETR的收敛速度,而Sparse R-CNN虽然结构上跟DETR没有关系,但是思想上是通过将粗粒度的目标区域扣出来来加快收敛速度。
论文:https://arxiv.org/abs/2101.07448
SMCA提出通过动态预测一个类似于2D的空间高斯weight map,来跟co-attention feature maps相乘来达到加快收敛速度的目的。
SMCA
DETR的模型设计可以看之前的文章(计算机视觉"新"范式: Transformer),这里主要看一下Spatially Modulated Co-Attention(SMCA)部分。
Spatially Modulated Co-Attention
原来DETR的co-attention部分,将query和key计算相关性,然后和value相乘;而SMCA引入了空间先验,先预测目标的中心点和尺度,然后通过公式生成类高斯的weight map,然后将类高斯weight map和query/key的相关性map相乘得到modulated co-attention。具体的计算公式看paper。
multi-head和multi-scale刷点用的,比较常规,这里主要看一下可视化。
可视化
从可视化图片可以看出,DETR需要关注大量不太重要的区域,导致学出来的特征不够有代表性,学习难度增大,而SMCA引入了空间先验和多尺度后,不同尺度可以关注到不同尺度的特征,并且学出来的特征更加干净。
Sparse R-CNN
虽然Sparse R-CNN跳出了DETR的结构,但是思想上是一致的。通过Dynamic Conv(类似co-attention)的方式,从proposal features(和DETR中的object queries相似)中解码出目标。而Sparse R-CNN通过增加一个可学习的proposal boxes来获得粗粒度的目标位置,然后通过ROIAlign将粗粒度的目标扣出来,通过Dynamic Head逐级refine。
可视化
从refine的不同stage可以看出,Sparse R-CNN将扣出来的目标区域逐渐调整到了最合适的目标上。
SMCA跟Sparse R-CNN的联系
某种意义上来讲,SMCA和Sparse R-CNN的关系类似于CNN范式中FCOS和Faster-RCNN的关系,一个直接在global的feature上加先验,来达到快速收敛的目的,一个通过ROIAilgn的方式将目标feature扣出来来达到快速收敛的目的。本质上就是拿更好的目标位置先验,帮助定位目标,提取目标context的信息。现在又跟之前CNN时代一样,扣出来就是two-stage,不扣出来就是one-stage,历史是螺旋式上升的。
不管是CNN时代还是Transformer时代,对于目标检测这个task而言,我认为global信息是有用的,但是没有local信息性价比高,在local信息满足的情况下,global信息对于上限的提升也是有限的,目标检测任务更趋近于object context的任务。
Reference
[1] Fast Convergence of DETR with Spatially Modulated Co-Attention
[2] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
CV资源下载
后台回复:Transformer综述,即可下载两个最新的视觉Transformer综述PDF,肝起来!
重磅!CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer方向 微信交流群,也可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,才能通过且邀请进群
▲长按加微信群
▲长按关注CVer公众号
整理不易,请给CVer点赞和在看!