Faster R-CNN：关于RPN的loss及实现

最新推荐文章于 2025-02-23 10:44:37 发布

原创

最新推荐文章于 2025-02-23 10:44:37 发布 · 1w 阅读

14 ·

CC 4.0 BY-SA版权

本文深入探讨Faster R-CNN中的区域提议网络（RPN）损失函数，包括分类损失和回归损失的计算。详细阐述了anchor的分类log loss以及bbox坐标使用smooth L1 loss的步骤，特别提到了在TensorFlow环境下如何实现这些损失函数，强调了TensorFlow的符号式编程特点。文章最后给出了相关代码实现。

Faster R-CNN是用于图像检测的一种算法，本文具体讨论了RPN部分的loss function数学计算以及Python3.0+TensorFlow1.9条件下的代码实现。
Faster R-CNN 在RPN上的损失函数由两部分构成分类损失函数和回归损失函数：
在这里插入图片描述
anchor的分类损失函数：
输入为预测的foreground的概率和anchor的标签，anchor为negative时标签值为0反之则为1。此损失函数采用了log loss即：
loss=y*log§+(1-y)*log(1-p)，其中y是label，p是预测概率。

bbox坐标 smooth L1 loss的计算步骤：
1.求ground_truth 的边界框和RPN输出的边界框的差（每个边界框对应4个数值：中心点坐标（x，y），边界框的高度和宽度（w，h），此处的所有变量值都对应输入的原图）
2.对坐标差转化为t（t的计算由论文给出，并且由做差后的结果可以判断出计算过程中可以不用anchor的尺寸参与计算）并取绝对值
3.将t带入smooth l1 loss中进行计算，在计算中输入需要和1进行大小的比较，为保证loss函数的连续性比较的计算参数不参与反向传播，可利用tf.stop_gradient()阻断反向传播
4.将3中数据与权重以及标签参数相乘，可以过滤掉所有的negative的bbox坐标，并通过权重使坐标（reg）的损失函数值与分类（cls）的损失函数值接近。
5.总数N的除法运算并未直接执行而是采用了tf.reduce_mean()函数完成这一操作。

在上述计算过程中需要用到tf.reduce_mean()和tf.reduce_sum()两个函数，分别用于求均值和求总和，二者均可以通过输入规定操作的维数。需要注意的是，在TensorFlow下的计算，尽可能的使用来自TensorFlow的函数，因为TensorFlow是符号式编程，一般情况，先定义各变量，然后建立

最低0.47元/天解锁文章