几种目标检测网络模型对比(RCNN系列、Mask-RCNN、R-FCN、YOLO、SSD、FPN等)

本文对比了几种主流目标检测网络模型,包括RCNN系列(RCNN, Fast-RCNN, Faster-RCNN)、R-FCN、YOLO、SSD以及FPN。RCNN系列通过不断优化减少了计算量,提高了速度和准确性。YOLO和SSD作为单次预测模型,速度快但对小目标检测效果欠佳。FPN解决了小目标检测问题,提升了定位准确性。最后,Mask-RCNN引入了语义分割,提高了分割精度。" 95760429,8363558,Linux学习笔记:重定向、管道与环境变量,"['Linux', 'RHEL', 'Shell脚本', 'Vim']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 RCNN

RCNN具体原理解析
在这里插入图片描述

网络分为四个部分:区域划分、特征提取、区域分类、边框回归
区域划分:使用selective search算法画出2k个左右候选框,送入CNN
特征提取:使用imagenet上训练好的模型,进行finetune
区域分类:从头训练一个SVM分类器,对CNN出来的特征向量进行分类
边框回归:使用线性回归,对边框坐标进行精修

优点
ss算法比滑窗得到候选框高效一些;使用了神经网络的结构,准确率比传统检测提高了
缺点
1、ss算法太耗时,每张图片都分成2k,并全部送入CNN,计算量很大,训练和inference时间长
2、四个模块基本是单独训练的,CNN使用预训练模型finetune、SVM重头训练、边框回归重头训练。微调困难,可能有些有利于边框回归的特征并没有被CNN保留

2 Fast-RCNN

Fast-RCNN具体原理解析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
相对RCNN,准确率和速度都提高了,具体做了以下改进
1、依旧使用了selective search算法对原始图片进行候选区域划分,但送入CNN的是整张原始图片,相当于对一张图片只做一次特征提取,计算量明显降低
2、在原图上selective search算法画出的候选区域对应到CNN后面输出的feature map上,得到2k个左右的大小长宽比不一的候选区域,然后使用RoI pooling将这些候选区域resize到统一尺寸,继续后续的运算
3、将边框回归融入到卷积网络中,相当于CNN网络出来后,接上两个并行的全连接网络,一个用于分类,一个用于边框回归,变成多任务卷积网络训练。这一改进,相当于除了selective search外,剩余的属于端到端,网络一起训练可以更好的使对于分类和回归有利的特征被保留下来
4、分类器从SVM改为softmax,回归使用平滑L1损失

缺点:因为有selective search,所以还是太慢了,一张图片inference需要3s左右,其中2s多耗费在ss上,且整个网络不是端到端

3 Faster-RCNN

Fseter-RCNN具体原理解析 1
Fseter-RCNN具体原理解析 2
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值