Faster RCNN系列2——RPN的真值与预测值概述

原创已于 2023-04-20 21:05:15 修改 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #目标检测 #人工智能

于 2023-04-18 15:07:06 首次发布

目标检测专栏收录该内容

9 篇文章

订阅专栏

本文详细介绍了FasterRCNN中的区域提议网络(RPN)的工作原理，包括Anchor的生成、IoU在类别真值确定中的作用、偏移量真值的计算以及RPN的网络结构如何预测类别和偏移量。RPN通过分类和回归分支，分别预测Anchor的前景/背景概率和相对于真实边界框的偏移量，从而实现目标检测的关键步骤。

Faster RCNN系列：

Faster RCNN系列1——Anchor生成过程
 Faster RCNN系列2——RPN的真值与预测值概述
 Faster RCNN系列3——RPN的真值详解与损失值计算
 Faster RCNN系列4——生成Proposal与RoI
Faster RCNN系列5——RoI Pooling与全连接层

对于目标检测任务，模型需要预测物体的类别和位置，即类别、边框中心点坐标 $x$ 与 $y$ 、边框宽 $w$ 与高 $h$ 这5个量，基于Anchor这个先验框，RPN可以预测Anchor的类别作为预测边框的类别，可以预测真实的边框相对于Anchor的偏移量进而求解真实边框的位置。

因此，RPN有两种真实和预测值，分别是类别和偏移量。

如下图所示，输入图像中有3个Anchor和2个标签，Anchor A与label M有重叠，Anchor C与label N有重叠，Anchor B不与任何label重叠。

在这里插入图片描述

图1 Anchor与标签的关系

1.1 真值

类别真值

这里的类别真值是指Anchor是属于前景还是属于背景。RPN通过计算Anchor与标签的IoU来判断一个Anchor是属于前景还是属于背景。图1中Anchor A与label M的IoU计算公式如下：

$IoU(A,M)=\frac{A\cap M}{A\cup M}$

当IoU大于一定值时，该Anchor的类别真值为前景；当IoU小于一定值时，该Anchor的类别真值为背景。具体的判断标准如下：

对于任何一个Anchor，与所有标签的最大IoU小于0.3，则视为负样本。
对于任何一个标签，与其有最大IoU的Anchor视为正样本。
对于任何一个Anchor，与所有标签的最大IoU大于0.7，则视为正样本。
偏移量真值

假设图1中Anchor A的中心坐标为 $x_{a}$ 与 $y_{a}$ ，宽高分别为 $w_{a}$ 与 $h_{a}$ ，标签M的中心坐标为 $x$ 与 $y$ ，宽高分别为 $w$ 与 $h$ ，则偏移量真值的计算公式如下：

$\left\{\begin{matrix} t_{x}= \frac{(x-x_{a})}{w_{a}}\\ t_{y}= \frac{(y-y_{a})}{h_{a}} \\ t_{w}=log(\frac{w}{w_{a}}) \\ t_{h}=log(\frac{h}{h_{a}}) \end{matrix}\right.$

1.2 预测值

RPN通过搭建如图2所示的网络结构，实现对类别和偏移量的预测，即通过分类分支求得类别预测值、通过回归分支求得偏移量预测值。

在这里插入图片描述

图2 RPN网络结构

类别预测值

在分类分支中，首先使用 $1 \times 1$ 卷积输出 $18 \times 37 \times 50$ 的特征，由于每个点默认有9个Anchors,并且每个Anchor 只预测其属于前景还是背景，因此通道数为18。随后利用torch.view()函数将特征映射到 $2 \times 333 \times 75$ ，这样第一维仅仅是一个Anchor的前景背景得分，并送到Softmax函数中进行概率计算，得到的特征再变换到 $18 \times 37 \times 50$ 的维度，最终输出的是每个Anchor属于前景与背景的概率。