COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

最新推荐文章于 2023-01-06 18:05:35 发布

我爱计算机视觉

最新推荐文章于 2023-01-06 18:05:35 发布

阅读量2.4k

点赞数 6

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/moxibingdao/article/details/106561796

COCO 数据集上的目标检测精度的最高纪录已经有将近一年时间停留在53.3 mAP，曾经报告达到过这一高度的算法有：

1）Cascade Mask R-CNN(Triple-ResNeXt152, multi-scale) ；

2）ResNeSt-200DCN (multi-scale)；

均使用了多尺度测试，

它们分别来自论文：

1）CBNet: A Novel Composite Backbone Network Architecture for Object Detection， AAAI 2020；

2）ResNeSt: Split-Attention Networks， arXiv 2020；

这两篇论文均为在主干网上做文章，尤其是后者，其提出的主干网ResNeSt不仅大幅提高了目标检测的精度，在语义分割、实例分割中也登顶COCO数据集。

这不由得使我们思考，现有目标检测、语义分割等的任务架构是不是已经较为完备，而研究更好的主干网、增强网络的表达能力是提升精度更好的选择？

今天新出的文章 DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution ，则再一次在主干网上做文章，其在COCO数据集上的单尺度测试精度已经达到53.3mAP（53.3真是一个神奇的数字！），而多尺度测试中 DetectoRS (ResNeXt-101-32x4d, multi-scale) 达到目前所有文献报告的最高精度：54.7mAP！代码已开源。

不仅如此，在COCO数据集上的实例分割和全景分割任务中，DetectoRS 也一举登顶，成为目前目标检测、语义分割、全景分割领域的全能王者！

DetectoRS 作者信息：

第一作者 Siyuan Qiao目前是约翰斯霍普金斯大学博士生，第二作者是著名的DeepLab 系列算法主要作者谷歌公司研究员Liang-Chieh Chen。

主要思想

DetectoRS的思想来自成功的目标检测算法如Faster RCNN 、Cascade R-CNN所体现出的哲学：looking and thinking twice （无论是两阶段还是级联检测器，都体现出信息的反复利用和提精）作者是把这一思想应用于主干网的改进上，主要创新如图：

1）宏观层次，提出递归特征金字塔网络（RFP，Recursive Feature Pyramid），集成FPN的反馈连接到主干网，使得主干网再训练得到的特征更好的适应检测或分割任务。

2）微观层次，提出可切换的空洞卷积（SAC，Switchable Atrous Convolution）替换主干网上的标准卷积，使得模型可自适应选择感受野。

以上新技术带来的改进是显著的，作者将其应用于实例分割算法HTC，在其他不变的情况下，检测和分割精度提升明显，如图：

递归特征金字塔网络（RFP）

大家所熟知的特征金字塔网络（FPN）是将主干网不同阶段（stage）特征组成特征金字塔，如下图（a），而RFP则添加了对于目标检测任务的梯度向主干网方向回传，如下图（b）。

图中（c）是将这个递归的过程展开的示意图，FPN反馈连接到主干网每个阶段的第一个block，使用的是ASPP结构（图中绿色圆点），图中画出的是2-step 序列RFP，FPN之间也进行了特征融合（图中红色部分）。

反馈连接网络ASPP：

RPN中的融合模块：

作者最终实验中使用的就是2-step RFP。

这种递归特征金字塔网络有什么好处呢？很明显它能够使得目标检测的错误回传信息更直接的反馈调整主干网的参数。

可切换的空洞卷积（SAC）

空洞卷积可增大网络感受野，这已经被证明对检测和分割任务是有效的。

而作者提出的可切换的空洞卷积（Switchable Atrous Convolution）则使得网络训练时尺度选择更灵活，如下图：

不同空洞率的空洞卷积捕捉到不同感受野的目标，网络可以学习到一个开关，以自适应调整选择哪个感受野的卷积结果。

其网络结构如图：

作者将主干网所有标准卷积替换为可切换的空洞卷积，而且为了更方便地从ImageNet预训练模型给主干网赋值，作者发明了可兼容标准卷积的可切换空洞卷积，具体细节请查看原论文。

实验结果

作者在消融实验中对上述两种改进进行了效果评估，如图：

可见HTC算法+RFP或者HTC+SAC均获得了大幅的精度提升，且相比较之下HTC+SAC的提升幅度更大，而同时加上RFP与SAC，取得了最高的精度。

一些检测结果示例：

下图为DetectoRS使用不同类型主干网与其他SOTA算法的比较：

使用ResNeXt-101-32x4d主干网，DetectoRS 取得了 COCO 目标检测单尺度和多尺度目前的最高精度，分别达到53.3mAP和54.7mAP。

在COCO实例分割和全景分割任务中的结果：

同样获得了目前最高的精度。

速度：在NVIDIA TITAN RTX显卡上运行帧率3.9fps。

最后让我们一起回顾一下COCO数据集目标检测近几年的SOTA（请点击并横屏查看大图）：

图片来自paperswithcode.com

DetectoRS 已经站在风口浪尖，不知下一个出现在最右上角的是谁呢？

论文地址：

https://arxiv.org/abs/2006.02334

代码地址：

https://github.com/joe-siyuan-qiao/DetectoRS

在我爱计算机视觉公众号后台回复“DetectoRS”，即可收到论文原文和代码下载。

DetectoRS 等论文改进主干网，提升网络表达能力，实现新高度，结果很漂亮，但从工程的角度，最简单、直接改进网络表达能力的是增加数据规模、提高数据质量，这也是谷歌一直在做的，推荐阅读：

谷歌发布最先进的计算机视觉迁移模型BigTransfer（BiT）

END

备注：目标检测

目标检测交流群

2D、3D目标检测等最新资讯，若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。