Faster RCNN网络简介

Faster RCNN是目标检测的重要网络,它引入RPN网络解决多尺度问题,通过Anchor策略生成候选框,并使用ROI Pooling进行固定尺寸特征提取。网络包括预训练的VGG16进行特征提取,RPN网络筛选候选区域,ROI Pooling提取Proposal特征,最后进行分类和位置回归。其创新点在于端到端的目标检测和高效的候选框处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍

Faster RCNN网络是目标检测领域里程碑式的一个网络。这个网络的提出,真正将深度学习方法端到端的应用到目标检测领域。大幅提升了目标检测的检测速度和检测准确程度。论文的RPN、Anchor等思想对后续的论文和研究工作也有不小的影响。下面,我们一起来看一下Faster RCNN到底是如何具体进行目标检测的。

总体网络结构

在这里插入图片描述
如图所示,我们先总体介绍一下数据流是如何传输的。之后再分开每一部分进行重点介绍。

对于一张输入的彩色图片,首先经过CNN层进行特征提取。在Faster R-CNN的原始论文中,他们使用的是预训练好的VGG16网络用于特征提取。VGG网络去掉全连接层,只保留卷积的部分。这个对应的就是图中的conv layer

卷积层提取完特征之后,对于特征图的数据,分成两部分,分别进入RPN网络(候选区域选择网络),和ROI pooling网络。对于RPN而言,这个网络所做的工作是挑选出图片中可能的候选区域,区分前景和背景。这些信息用来辅助最终的目标检测的决策。ROI Pooling所要做的是收集输入的feature maps和proposals,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别。

classifer用于做出最后判断。包括图像类别和位置。

下图可以更清晰的展示整个Faster R-CNN的网络结构。
在这里插入图片描述
下面具体对各个部分进行详细解释。conv layer没什么可解释的,直接从RPN开始。


RPN网络

介绍RPN网络之前,有必要先来谈谈目标检测问题存在的难点。这也是RPN网络提出的创新解决方案的关键所在。

做目标检测,可能存在最大的问题就是尺度变换多样。 比如说对人脸的目标检测而言,一张图片中,人脸有大有小。如何将这些大小不一的图片全部识别出来,并不算太容易。在过去,常常采用的方式是滑移窗口和图像金字塔的形式。通过滑移窗口扫描图像,以及图像金字塔的尺度变化来解决这个多尺度检测问题。然而这种方法无论是速度还是检测效果都不算好。RPN网络通过引入全卷积神经网络(FCN fully convolutional network)实现了一种端到端的候选区域提取。

对于输入图像,首先经过VGG的卷积网络进行特征提取,提取效果如图所示:
在这里插入图片描述
经过VGG网络之后,输入图像长度和宽度变窄,但是特征维度变多。

Anchor

对于目标检测而言,我们需要获取获取目标所在的位置(通常用矩形框来表示),我们这里使用 Δ x _ c

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Einstellung

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值