Rethinking Classification and Localization for Object Detection:关于目标检测中分类任务和定位任务的重思考

本文探讨了目标检测中双头结构的必要性,研究发现FC结构对分类效果更优,而单Conv头在定位任务上表现出色。实验结果显示,单独使用FC或Conv头分别处理分类和定位任务的性能优于双Conv头。此外,对于小目标和密集目标,FC分类头更具优势;而在定位任务上,虽然卷积稍占优势,但不显著。推荐关注Faster R-CNN、Adversarially Robust Object Detection等相关研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CVPR2020
截至目前495引
在这里插入图片描述

文章提出的问题

  • 使用R-CNN的网络广泛使用了双头结构,这种双头结构对于目标检测中的分类和定位任务是友好的,但是大家并不知道为什么这种双头结构是好用。
  • 文中提到了一个知识,就是作者再做实验时发现,FC检测头对分类效果更好,Conv检测头对定位效果更好,本文给出了原因
  • 单Conv头的检测效果比双Conv头的效果好,本文给出了原因

图一
图一

解决方案

  • 作者发现FC结构相比与Conv具有更好的空间敏感性,这种空间敏感性是因为FC对候选的输入部分的参数时不同的,不同的参数分别负责不同的部分,这相比于Conv的参数共享的卷积核结构,

  • 本文实验发现使用了双头和单头分别做实验,得到以下几组结果,中间一大列中的数值是给两个任务分配的权值。可以看到作者的实验结果表明,分别使用两种结构振针对两种任务的Double-Head的效果更好。
    图一
    图二

  • 在图二中我们发现单Conv头的效果竟然比双Conv的效果好,作者剔提出的原因是单Conv在regression方面的任务预测帮助了他在classiffication方面的表现,这也是为什么图一中的(d)产生的原因。

思考

  • 如下图的第一行展示的图,我们可以发现,在分类任务中关于大目标,两者的分类性能相差不大,只有在中小尺度的目标上,FC的分类效果要好于Conv。所以我们可以使用FC分类头来针对小目标或者密集目标的检测。
    图二
    图三
  • 在第三行的展示图我们可以的发现,卷积确实要比FC的定位效果要好一些,但是并不明显,但是卷积在参数量的权衡上更好。
  • 在图二中我们发现单Conv头的效果竟然比双Conv的效果好,这也是后面的卷积解耦头设计需要克服的困难。

推荐阅读

[1]Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015.
[2]Haichao Zhang and Jianyu Wang. Towards adversarially robust object detection. In The IEEE International Conference on Computer Vision (ICCV), October 2019.
[3]T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S.Belongie. Feature pyramid networks for object detection.In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 936–944, July 2017.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cvyoutian

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值