Fast R-CNN 论文阅读

FastR-CNN在R-CNN基础上改进,通过引入ROI池化层实现共享卷积层计算,整合多任务损失函数,使用softmax分类器替代SVM,并减少全连接层计算量,实现了端到端的检测网络训练,大幅提升速度与精度。

Fast R-CNN 论文阅读

这里写图片描述

0.简介

R-CNN算法很大程度上提高了detection的效果,本文在R-CNN的基础上进行改进,在训练预测速度上有较大提升的同时也带了精度的提升。具体的:

-借鉴并改进了SPPNet的共享卷积层计算思想,提出了ROI pooling,这样做可以在精修的时候对卷积的部分也进行参数的调整,也带来了最终结果的提升。
- 将SVM分类器换成softmax,在RCNN中也提到了这样做可以提升速度
- 将bounding box regression整合到网络
-不需要保存feature,节省存储空间(其实这是一个很重要的问题)
这里写图片描述
可以看出,如果提供了预训练的卷积参数与proposals,剩余的部分被作者整合到了一起,在精修时是一个端到端的训练(ROI pooling 可以bp)。

1. Fast-RCNN 框架

借图
这里写图片描述
可以看出,经过ROI Pooling 以及多任务,网络可以进行image wise的训练。

RoI pooling layer: roi_pool层将每个候选区域(CxHxW)均匀分成M×N块,对每块进行max pooling。将特征图上大小不一的候选区域转变为大小统一的数据,送入下一层。 具体实现就是设输出大小Cxhxw,固定pooling的kernel size设置成(H/h, W/w),步长也是一样。
bp过程:

Lxi=rjI(i=i(r,j))Lyr,j∂L∂xi=∑r∑jI(i=i∗(r,j))∂L∂yr,j

最简单的理解就是对于ROI 之间的一个Max pooling bp的加和,可以想想SPPNet中每个ROI单独计算,那对应到整图就是这个加和,SPPNet 不需要对CNN进行精修,故而不会涉及到这个问题。这样做带来的问题是对于一个Batch,所有的ROI出自同一张图,但是作者指出这样不会导致结果下降。
Multi-task loss:对于分类问题会bb regression部分的的整体损失定义为:
L(p,u,tu,v)=Lcls(p,u)+λI(u1)Lloc(tu,v)L(p,u,tu,v)=Lcls(p,u)+λI(u⩾1)Lloc(tu,v)

其中第一项为分类损失,采用log loss,第二项为归一化坐标损失,采用smoothL1 Loss,相比L2 loss,不需要精心的调节来防止梯度爆炸。这就构成了一个单步训练的多任务网络。
Truncated SVD for faster detection:利用SVD来减少全连接的计算,主要是因为每张图中选了很多的ROI,导致全连接部分计算耗时很大,作者采用SVD来平衡速度与精度。最终的计算量由uvuv减少到了t(v+u)t(v+u)

实验结果

如下表所示:
这里写图片描述
速度对比:
这里写图片描述
文中最后得到一些结论,Multi-task训练可以提高分类结果,在FRCN中,softmax要好于SVM,鼓励类间竞争,RCNN中的结果有区别。
并不是proposals越多越好,越让整个网络趋近与端到端越好回头想想,现在只剩下proposal这一块没放进网络了,所以为了加速整合R-CNN各个步骤,更趋近端到端的训练可以提高结果,从而达到速度与效果的双赢。

Fast R-CNN 是一种用于目标检测的经典算法,其核心思想在于通过共享卷积特征来加速检测过程并提高准确性。以下是有关 Fast R-CNN 的详细介绍以及如何找到相关学术论文的方法。 ### 关于 Fast R-CNN Fast R-CNN 是由 Ross Girshick 提出的一种改进的目标检测框架[^1]。它解决了传统方法(如 Selective Search 和 SPP-Net)中的效率问题,并引入了一种端到端的训练方式。具体来说: - **单阶段训练**:与之前的两阶段方法不同,Fast R-CNN 使用一个多任务损失函数来联合优化分类和边界框回归的任务。 - **共享卷积特征**:输入图像仅需经过一次卷积神经网络处理即可提取特征图,从而显著减少了重复计算的时间开销。 - **RoI Pooling 层**:为了适应不同的区域提议大小,Fast R-CNN 设计了一个 RoI Pooling 层,能够将任意尺寸的感兴趣区域映射成固定大小的特征向量。 这些创新使得 Fast R-CNN 成为当时最先进的目标检测模型之一,并为其后续版本 Faster R-CNN 奠定了基础。 ### 如何获取 Fast R-CNN 学术论文? 要查找 Fast R-CNN 的原始学术论文,可以通过以下几种途径实现: 1. **访问官方出版平台** 论文Fast R-CNN》发表在 IEEE International Conference on Computer Vision (ICCV) 2015 上。可以直接前往 ICCV 或 arXiv 网站搜索标题 "Fast R-CNN" 下载 PDF 文件。 2. **利用 Google Scholar** 输入关键词 “Fast R-CNN” 进入谷歌学术搜索引擎,通常会返回多个链接指向该文章的不同存储位置,包括作者主页、会议记录或者预印本服务器等资源。 3. **查阅开源项目文档** 如果不方便直接阅读原版英文期刊,则可以从一些知名深度学习库的相关页面了解更多信息。例如 Mask RCNN GitHub 仓库提供了丰富的背景资料供开发者参考[^2]。 4. **关注衍生研究方向** 随着时间发展,许多新方法都建立在 Fast/Faster R-CNN 的基础上进行了扩展或改良。比如提到过的 Mask R-CNN 就是在此基础上增加了实例分割功能[^3];而针对 MS COCO 数据集的应用场景也有专门描述[^4]。 ```python import torch from torchvision.models.detection import fasterrcnn_resnet50_fpn model = fasterrcnn_resnet50_fpn(pretrained=True) print(model) ``` 上述代码展示了如何加载 PyTorch 中预先训练好的 Faster R-CNN 模型作为起点进行进一步定制化开发工作。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值