CVPR2020
截至目前495引
文章提出的问题
- 使用R-CNN的网络广泛使用了双头结构,这种双头结构对于目标检测中的分类和定位任务是友好的,但是大家并不知道为什么这种双头结构是好用。
- 文中提到了一个知识,就是作者再做实验时发现,FC检测头对分类效果更好,Conv检测头对定位效果更好,本文给出了原因
- 单Conv头的检测效果比双Conv头的效果好,本文给出了原因
图一
解决方案
-
作者发现FC结构相比与Conv具有更好的空间敏感性,这种空间敏感性是因为FC对候选的输入部分的参数时不同的,不同的参数分别负责不同的部分,这相比于Conv的参数共享的卷积核结构,
-
本文实验发现使用了双头和单头分别做实验,得到以下几组结果,中间一大列中的数值是给两个任务分配的权值。可以看到作者的实验结果表明,分别使用两种结构振针对两种任务的Double-Head的效果更好。
图二 -
在图二中我们发现单Conv头的效果竟然比双Conv的效果好,作者剔提出的原因是单Conv在regression方面的任务预测帮助了他在classiffication方面的表现,这也是为什么图一中的(d)产生的原因。
思考
- 如下图的第一行展示的图,我们可以发现,在分类任务中关于大目标,两者的分类性能相差不大,只有在中小尺度的目标上,FC的分类效果要好于Conv。所以我们可以使用FC分类头来针对小目标或者密集目标的检测。
图三 - 在第三行的展示图我们可以的发现,卷积确实要比FC的定位效果要好一些,但是并不明显,但是卷积在参数量的权衡上更好。
- 在图二中我们发现单Conv头的效果竟然比双Conv的效果好,这也是后面的卷积解耦头设计需要克服的困难。
推荐阅读
[1]Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015.
[2]Haichao Zhang and Jianyu Wang. Towards adversarially robust object detection. In The IEEE International Conference on Computer Vision (ICCV), October 2019.
[3]T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S.Belongie. Feature pyramid networks for object detection.In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 936–944, July 2017.