港中文提出SMCA：加快DETR收敛

最新推荐文章于 2024-08-16 09:26:19 发布

Amusi（CVer）

最新推荐文章于 2024-08-16 09:26:19 发布

阅读量1k

点赞数 2

文章标签：人工智能计算机视觉深度学习机器学习卷积神经网络

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

本文转载自：Smarter

先简单回顾一下之前加快DETR收敛的检测器是怎么做的，Deformable DETR、TSP，另外还有一篇比较特殊的Sparse R-CNN，后面会聊一下SMCA和Sparse R-CNN之间的联系。

Deformable DETR通过采样的稀疏性来加快DETR的收敛速度，详细的可以看之前的文章，TSP通过去掉decoder，将FCOS/R-CNN和DETR组合，来加快DETR的收敛速度，而Sparse R-CNN虽然结构上跟DETR没有关系，但是思想上是通过将粗粒度的目标区域扣出来来加快收敛速度。

论文：https://arxiv.org/abs/2101.07448

SMCA提出通过动态预测一个类似于2D的空间高斯weight map，来跟co-attention feature maps相乘来达到加快收敛速度的目的。

SMCA

DETR的模型设计可以看之前的文章(计算机视觉"新"范式: Transformer)，这里主要看一下Spatially Modulated Co-Attention(SMCA)部分。

Spatially Modulated Co-Attention

原来DETR的co-attention部分，将query和key计算相关性，然后和value相乘；而SMCA引入了空间先验，先预测目标的中心点和尺度，然后通过公式生成类高斯的weight map，然后将类高斯weight map和query/key的相关性map相乘得到modulated co-attention。具体的计算公式看paper。

multi-head和multi-scale刷点用的，比较常规，这里主要看一下可视化。

可视化

从可视化图片可以看出，DETR需要关注大量不太重要的区域，导致学出来的特征不够有代表性，学习难度增大，而SMCA引入了空间先验和多尺度后，不同尺度可以关注到不同尺度的特征，并且学出来的特征更加干净。

Sparse R-CNN

虽然Sparse R-CNN跳出了DETR的结构，但是思想上是一致的。通过Dynamic Conv(类似co-attention)的方式，从proposal features(和DETR中的object queries相似)中解码出目标。而Sparse R-CNN通过增加一个可学习的proposal boxes来获得粗粒度的目标位置，然后通过ROIAlign将粗粒度的目标扣出来，通过Dynamic Head逐级refine。

可视化

从refine的不同stage可以看出，Sparse R-CNN将扣出来的目标区域逐渐调整到了最合适的目标上。

SMCA跟Sparse R-CNN的联系

某种意义上来讲，SMCA和Sparse R-CNN的关系类似于CNN范式中FCOS和Faster-RCNN的关系，一个直接在global的feature上加先验，来达到快速收敛的目的，一个通过ROIAilgn的方式将目标feature扣出来来达到快速收敛的目的。本质上就是拿更好的目标位置先验，帮助定位目标，提取目标context的信息。现在又跟之前CNN时代一样，扣出来就是two-stage，不扣出来就是one-stage，历史是螺旋式上升的。

不管是CNN时代还是Transformer时代，对于目标检测这个task而言，我认为global信息是有用的，但是没有local信息性价比高，在local信息满足的情况下，global信息对于上限的提升也是有限的，目标检测任务更趋近于object context的任务。

Reference

[1] Fast Convergence of DETR with Spatially Modulated Co-Attention

[2] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

CV资源下载

后台回复：Transformer综述，即可下载两个最新的视觉Transformer综述PDF，肝起来！

重磅！CVer-Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer方向 微信交流群，也可申请加入CVer大群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，才能通过且邀请进群