Cascade R-CNN

最新推荐文章于 2025-04-03 07:00:00 发布

原创最新推荐文章于 2025-04-03 07:00:00 发布 · 260 阅读

0 ·

CC 4.0 BY-SA版权

deep learning 专栏收录该内容

7 篇文章

订阅专栏

CascadeR-CNN是一种解决目标检测中检测框不精确问题的方法，通过使用不同IOU阈值训练级联的检测器，逐步提高检测精度。实验证明，这种方法可以有效避免高阈值带来的过拟合问题，同时提升网络对输入proposal的优化效果。

本篇文章主要解决了在目标检测中，检测框不是特别准，容易出现噪声干扰的问题，即close false positive，为什么会有这个问题呢？作者实验发现，因为在基于anchor的检测方法中，我们一般会设置训练的正负样本（用于训练分类以及对正样本进行坐标回归），选取正负样本的方式主要利用候选框与ground truth的IOU占比，常用的比例是50%，即IOU>0.5的作为正样本，IOU<0.3作为负样本等，但是这样就带来了一个问题，阈值取0.5是最好的吗？

作者通过实验发现，1、设置不同阈值，阈值越高，其网络对准确度较高的候选框的作用效果越好。2、不论阈值设置多少，训练后的网络对输入的proposal都有一定的优化作用。基于这两点，作者设计了Cascade R-CNN网络，如下面图Figure3(d)所示，即通过级联的R-CNN网络，每个级联的R-CNN设置不同的IOU阈值，这样每个网络输出的准确度提升一点，用作下一个更高精度的网络的输入，逐步将网络输出的准确度进一步提高。

一句话总结就是：Cascade R-CNN就是使用不同的IOU阈值，训练了多个级联的检测器。

作者又做了不同阈值下网络精度的实验，结果如图figure1(d)所示，可以发现，对于阈值为0.5以及0.6的时候，网络精度差距不大，甚至提升了一点，但是将精度提升到0.7后，网络的精度就急速下降了，(COCO数据集上：AP：0.354->0.319)，这个实验说明了，仅仅提高IoU的阈值是不行的，因为提高阈值以后，我们会发现，实际上网络的精度（AP）反而降低了。

为什么会下降呢？

由于提高了阈值，导致正样本的数量呈指数减低，导致了训练的过拟合。
在inference阶段，输入的IOU与训练的IOU不匹配也会导致精度的下降。所以才会出现Figure1(d)中，u=0.7的曲线在IOU=0.5左右的时候，差距那么大。
实验证明了不能使用高的阈值来进行训练，但是实验也呈现出了另一个事实，那便是：回归器的输出IOU一般会好于输入的IOU，图figure1（c）所示。并且随着u的增大，对于在其阈值之上的proposal的优化效果还是有提升的。

那既然这样，我们是否可以采用级联的方式逐步提升呢？即首先利用u=0.5的网络，将输入的proposal的提升一些，假如提升到了0.6，然后在用u=0.6的网络进一步提升，加入提升到0.7，然后再用u=0.7的网络再提升，这样岂不是精度越来越高了？