边框回归：BoundingBox-Regression(BBR)(转)

最新推荐文章于 2024-10-03 18:52:21 发布

转载最新推荐文章于 2024-10-03 18:52:21 发布 · 365 阅读

tensorflow 同时被 2 个专栏收录

76 篇文章

订阅专栏

经典神经网络

7 篇文章

订阅专栏

探讨了为何在RCNN中采用BoundingBoxRegression(BBR)，解析其如何通过优化边界框定位提升目标检测精度，详细介绍了BBR的实现原理及输入特征。

为什么要做BoundingBox Regression（BBR）?

首先我们先来考虑，RCNN中为什么要做BoundingBox-Regression?

Bounding Boxregression是 RCNN中使用的边框回归方法，在RCNN的论文中，作者指出：主要的错误是源于mislocalization。为了解决这个问题，作者使用了bounding box regression。
这个方法使得mAp提高了3到4个点。
这里写图片描述

BBR的输入是什么？

注意，这里网上很多地方都说的不太正确，有误导，我仔细理解了一些论文，把自己的理解写下。（羞涩）
这里写图片描述

对于预测框P,我们有一个ground truth是G：当0.1< IoU < 0.5时出现重复，这种情况属于作者说的poor localiazation, 但注意：我们使用的并不是这样的框进行BBR(网上很多地方都在这里出现了误导),作者是用iou>0.6的进行BBR,也就是iou<0.6的Bounding Box会直接被舍弃，不进行BBR。这样做是为了满足线性转换的条件。否则会导致训练的回归模型不 work.

（当 P跟 G 离得较远，就是复杂的非线性问题了，此时用线性回归建模显然不合理。)

至于为什么当IoU较大的时候，我们才认为是线性变化，我找到一个觉得解释的比较清楚的，截图在下面：
这里写图片描述

线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近. 即Y≈WX 。

例如上图：我们现在要讲P框进行bbr,gt为G框，那么我们希望经过变换之后，P框能接近G框（比如，上图的G^框）。现在进行变换,过程如下：
我们用一个四维向量（x,y,w,h）来表示一个窗口，其中x,y,w,h分别代表框的中心点的坐标以及宽，高。我们要从P得到G^，需要经过平移和缩放。
这里写图片描述

其实这并不是真正的BBR，因为我们只是把P映射回G^,得到一个一般变换的式子，那为什么不映射回最优答案G呢？于是，P映射回G而不是G^，那我们就能得到最优变换（这才是最终的BBR）：
这里写图片描述

这里为什么会将tw,th写成exp形式？
是因为tw,th代表着缩放的尺寸，这个尺寸是>0的，所以使用exp的形式正好满足这种约束。
也就是，我们将转换d换成转换t,就得到了P到G的映射。 di -> ti。
现在我们只需要学习这四个变换dx(P),dy(P),dw(P),dh(P)，然后最小化t和d之间的距离，最小化这个loss，即可。

注意：此时看起来我们只要输入P的四维向量，就可以学习,然后求出，但是，其实我们输入的是pool5之后的features，记做φ5，因为如果只是单纯的靠坐标回归的话，CNN根本就没有发挥任何作用，但其实，bb的位置应该有CNN计算得到的features来fine-tune。所以，我们选择将pool5的feature作为输入。
这里写图片描述
loss为：