论文笔记:Light-Head R-CNN

本文介绍了旷视科技与清华大学的研究成果Light-Head R-CNN,这是一种针对两阶段目标检测算法的优化方法。通过采用更薄的特征映射和廉价的R-CNN子网,实现了在保持精度的同时提升检测速度。文中详细阐述了方法的改进点,包括特征映射的简化、大型可分离卷积的使用以及轻量级头部设计,展示了在不同实验设置下的性能对比。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
这是旷视科技+清华大学在2017发布的一篇文章

1.动机

two-stage算法主要有两部分组成:
(1)生成proposal(或说ROI)的过程(body)
(2)基于proposal(ROI)的recognition过程(head)

存在问题:
为了提高精度,head部分一般都包含很大的计算量,如faster RCNN和R-FCN

作者提出的解决方法
Light head
(1)thin feature map
(2)cheap RCNN subnet

two-stage网络大都可以分为两部分:ROI warping + R-CNN subnet。基本流程是:通过base feature extractor中某一层输出的feature map作为ROI warping的输入从而生成ROI,接着将ROI和feature map共同作为R-CNN subnet的输入完成分类和回归。其中,Faster RCNN在精度上,为了减少全连接层的计算量,使用了global average pool, 导致在一定程度上丢失位置信息;在速度上,每一个ROI都要通过R-CNN subnet做计算,这必将引起计算量过大,导致检测速度慢。而R-FCN share computation across ROIs。在精度上,也使用了global average pool;在速度上,需要一个维度非常大的score map,这在一定程度上也会降低检测速度。
在这里插入图片描述

2.贡献点

(1)Thinner feature map
(2) Cheap RCNN subnet
(3) 速度+精度
在这里插入图片描述

3. Light-Head R-CNN

①在R-FCN的基础上,light head RCNN中class≤10,也就是说score map维度变成了10pp=490(thinner feature map,原本coco上class=81),因此降低了PSROI pooling和fc层的计算量;
②使用了large separable convolution代替11convolution,示意图如图所示,作者借鉴了Inception V3 的思想,将kk的卷积转化为1k和k1,同时采用图中左右两边的方法,最后通过padding融合feature map,得到size不变的特征图。在这里插入图片描述
③将490维特征图和ROI作为PSROI 的输入则得到10维p*p的特征图,如果将490维特征图和ROI 作为ROI pooling的输入,则得到490维特征图,所以图中写了10 or 490。
④因为class更改为了10,所以没办法直接进行分类,所以接了个fc层做channel变换,再进行分类和回归。最终Light head rcnn的RCNN subnet部分却是先使用了一个2048channel的fc,再接81channel的fc用于分类(对于分类层来说)在这里插入图片描述

4.实验方法和结果

4.1 baseline

在这里插入图片描述
①B1:标准的R-FCN;
②B2:对R-FCN做一些“增强”
1.image短边resize为800,长边resize为1200,并在RPN部分设置5个scales{322,642,1282,2562,512^2}
2.在RCNN部分回归的loss总是小于分类的loss,所以将回归的loss翻倍
3.根据loss排序选取loss最大的256个samples用于反向传播

4.2Thinner feature maps(without large separable convolution )

在这里插入图片描述

4.3Thinner feature maps +large separable convolution在这里插入图片描述
4.4 +light head RCNN subnet

在这里插入图片描述

4.5 Some improvements

在这里插入图片描述

4.6 速度对比

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值