RPN网络通俗理解

最新推荐文章于 2025-10-24 22:23:36 发布

原创最新推荐文章于 2025-10-24 22:23:36 发布 · 2.4w 阅读

109 ·

CC 4.0 BY-SA版权

深度学习专栏收录该内容

4 篇文章

订阅专栏

本文深入解析RPN网络的工作原理及训练过程。RPN网络利用如VGG或ResNet等特征提取网络生成特征图，并通过特定的卷积层及全连接层生成不同尺度和比例的候选框，用于后续的目标检测任务。

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

【提特征】

RPN网络前面是一个提特征的网络，比如VGG,Res等，传给RPN网络的是一个特征图，其实也就是一个tensor

比如用ZF网络（论文里面用的）

输出特征图：13*13*256

【RPN】

拿到模型的特征，RPN网络首先加了一个3*3*256*256的卷积层（其实不是很清楚为什么加，可能是为了扩大感受野）

这样就会得到11*11*256的输出，前面11*11是图形矩阵，其中每一个点在原图中都是一个很大的区域，256表示这个区域的特征，具体的计算不再讨论

厉害的一步来了，之后在这个卷积之后，各自接了两个全连接层，一个输出18，一个输出36

这是为啥呢？

先看下面这个图

上面我说的11*11，其中每一个点，也就是特征图上的每一个点其实在原图中都是一块很大的区域（不太清楚的再看看卷积），也就是上面的黑框，在这个区域内可能有目标，为了能更能逼近目标，我们需要3种尺度，和3种形状。3*3=9，就是图中的那9种物体框。假设原图中有一个物体，那我们通过在原图上平移黑框，就总能找到一个颜色框能正好把物体框在里面（真是厉害这想法），而且尺度啊形状最接近。

那么如何平移的呢？在原图上你一个像素一个像素平移没意义啊，难道要重复提取特征？所以平移必须在特征图上平移，因为特征图最后总能映射回原图。11*11的特征图区域，在原图中就表示11*11个大黑框，每个大黑框里面又有9个小颜色框，这样就会产生11*11*9个不同位置，不同尺度，不同形状的物体框，基本足够框出所有物体了。

【如何训练】

损失函数参考这篇文章，等我代码熟了直接上代码

https://blog.youkuaiyun.com/wfei101/article/details/77150573

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo

14 条评论

songwenmingok 2020.07.27
特意登陆进来点赞的

lmw0320 2020.04.03
有几点没明白： 1. 13*13的特征图，是RPN网络的输入形状。首先经过3*3的卷积，变成11*11的大小，这里意思是padding= 'valid'??这样的话，不是可能会丢失边缘区域的像素值？？--- 2. 经过第一步的3*3卷积后的特征图，其每个像素点的感受野是很大的（一般都是方形区域，因为常规都是方形卷积核）。此时，先将卷积后的特征图的每个像素点，映射回原图，找到该原图的对应感受野区域的中心点，然后以该中心点为基础，向外扩展出9个anchor出来。每个anchor是以所设置尺度做个三种图出来：一种是正方形，还两种是长方形。这个长方形的长和宽的关系比，是在设置的比值中。但是长和宽的尺寸，是怎么来的呢？？---- 3. 对于特征图边缘的像素点，映射回原图再生成anchor时，很可能某些anchor会超出原图的边缘，此时又是如何处理的？？很多人都是说超出的就割除掉，具体哪里有相关的说明么？？--- 求指点迷津。。

weixin_40141342 2019.07.30
厉害的一步来了，之后在这个卷积之后，各自接了两个全连接层，一个输出18，一个输出36。你的这句话，应该是两个1*1卷积层吧，一个卷积核个数18，另一个卷积核个数为36，是我理解有问题，还是你笔误啊？
- 冒泡的可乐雪碧回复weixin_40141342 2019.11.28
  [reply]weixin_40141342[/reply] 有9中物体框，所以有18个得分，36个坐标

朋友，干了这碗脑白金！ 2019.05.24
"在原图中就表示11*11个大黑框，每个大黑框里面又有9个小颜色框" 看这句话博主的意思是小颜色框在特征图的一个点里，所以有11*11*9个位置。我觉得博主的理解有误，如果按博主理解，如果有一个目标比较大，占据了特征图的好几个点，那就不能标出来了。我的理解是，那9个小框是在特征图上移动，所以可以有11*11*9个位置。
- weixin_43130647回复朋友，干了这碗脑白金！ 2019.09.20
  [reply]Cheng_Shu_De_Ni[/reply] 恩，我看了论文里面有说去除超出特征图的anchors，所以假如有一张特征图是11*11的，用一个2*2的框去框这张特征图有11*11种框法，但是会有框超出特征图边界，我是这样理解的。

天街卖串串儿 2019.05.06
看了这么多，赞一下这个，简洁得很

qazasdwsx 2019.04.06
豁然开朗

hello_next_day 2019.03.01
看了好久都没明白博主是思想上感觉讲的非常清楚的啦

mengqingmeng1992 2018.12.19
"RPN网络首先加了一个3*3*256*256的卷积层"这里多写了“*256”吧
- noip2019回复Emiedon 2023.09.05
  Got it!
- 幼稚的男孩°回复Emiedon 2022.03.14
  卷积核不是二维的嘛0.0 比如3*3 。。。。
- aolifukuien回复mengqingmeng1992 2019.02.28
  [reply]mqm123mqm[/reply] 一个256是对应之前特征图的通道，一个256是256个卷积核.具体你可以看下1*1的卷积核实现降低维度操作和升维度操作。
- Emiedon回复mengqingmeng1992 2018.12.21
  [reply]mqm123mqm[/reply] 卷积核都是4维的