边框回归:BoundingBox-Regression(BBR)(转)

探讨了为何在RCNN中采用BoundingBoxRegression(BBR),解析其如何通过优化边界框定位提升目标检测精度,详细介绍了BBR的实现原理及输入特征。

为什么要做BoundingBox Regression(BBR)?

首先我们先来考虑,RCNN中为什么要做BoundingBox-Regression?

Bounding Boxregression是 RCNN中使用的边框回归方法,在RCNN的论文中,作者指出:主要的错误是源于mislocalization。为了解决这个问题,作者使用了bounding box regression。
这个方法使得mAp提高了3到4个点。
这里写图片描述

BBR的输入 是什么?

注意,这里网上很多地方都说的不太正确,有误导,我仔细理解了一些论文,把自己的理解写下。(羞涩)
这里写图片描述

对于预测框P,我们有一个ground truth是G:当0.1< IoU < 0.5时出现重复,这种情况属于作者说的poor localiazation, 但注意:我们使用的并不是这样的框进行BBR(网上很多地方都在这里出现了误导),作者是用iou>0.6的进行BBR,也就是iou<0.6的Bounding Box会直接被舍弃,不进行BBR。这样做是为了满足线性转换的条件。否则会导致训练的回归模型不 work.

(当 P跟 G 离得较远,就是复杂的非线性问题了,此时用线性回归建模显然不合理。)

至于为什么当IoU较大的时候,我们才认为是线性变化,我找到一个觉得解释的比较清楚的,截图在下面:
这里写图片描述

线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近. 即Y≈WX 。

例如上图:我们现在要讲P框进行bbr,gt为G框,那么我们希望经过变换之后,P框能接近G框(比如,上图的G^框)。现在进行变换,过程如下:
我们用一个四维向量(x,y,w,h)来表示一个窗口,其中x,y,w,h分别代表框的中心点的坐标以及宽,高。我们要从P得到G^,需要经过平移和缩放。
这里写图片描述

其实这并不是真正的BBR,因为我们只是把P映射回G^,得到一个一般变换的式子,那为什么不映射回最优答案G呢?于是,P映射回G而不是G^,那我们就能得到最优变换(这才是最终的BBR):
这里写图片描述

这里为什么会将tw,th写成exp形式?
是因为tw,th代表着缩放的尺寸,这个尺寸是>0的,所以使用exp的形式正好满足这种约束。
也就是,我们将转换d换成转换t,就得到了P到G的映射。 di -> ti。
现在我们只需要学习 这四个变换dx(P),dy(P),dw(P),dh(P),然后最小化t和d之间的距离,最小化这个loss,即可。

注意:此时看起来我们只要输入P的四维向量,就可以学习,然后求出,但是,其实我们输入的是pool5之后的features,记做φ5,因为如果只是单纯的靠坐标回归的话,CNN根本就没有发挥任何作用,但其实,bb的位置应该有CNN计算得到的features来fine-tune。所以,我们选择将pool5的feature作为输入。
这里写图片描述
loss为:
这里写图片描述

最后,我们只需要利用梯度下降或最小二乘求解w即可。

【以前看的时候,我以为BBR和分类信息没有什么关系,后来才发现是针对每一类都会训练一个BBR,写出来给和我一样理解有误的童鞋提个醒…】

### N-IoU 改进的 IoU-based 边界框回归损失函数 #### 应用场景 N-IoU(Normalized Intersection over Union)作为一种改进型的IoU-based边界框回归损失函数,在目标检测领域得到了广泛应用。该方法不仅保留了传统IoU损失的核心特性,还通过引入新的机制来提升模型性能[^1]。 #### 特性和优势 - **取值范围一致**:同传统的IoU损失一样,N-IoU 的取值同样限定于\[0, 1\]区间内,这使得两者在数值上具备可比较性。 - **加速高IoU样本收敛**:当辅助边框尺寸小于真实边框(ratio<1),虽然有效回归区域缩小,但是由于梯度绝对值更大,因此可以更快速地促使那些已经接近正确的预测结果进一步精细化调整。 - **增强低IoU情况下的表现力**:反之如果辅助边框相对较大,则有助于扩展回归的有效作用域,从而改善初始定位不准确的情况,特别是对于那些原本交并比很低的目标物体而言效果显著。 - **解决原始IoU Loss存在的问题**:直接采用\(1-\text{IoU}\)作为loss来进行bbox regression分支训练虽可行却并非完美无缺;比如它可能无法很好地处理不同大小的对象之间的比例变化等问题[^2]。而经过改良后的版本则能在一定程度上缓解这些问题的影响。 ```python def n_iou_loss(pred_boxes, target_boxes): """ 计算两个矩形框间的N-IoU损失 参数: pred_boxes (Tensor): 预测得到的边界框坐标[N, 4] target_boxes (Tensor): 实际标签对应的边界框坐标[N, 4] 返回: Tensor: 平均N-IoU损失值 """ # 获取每个box的高度宽度以及中心点位置 wh_pred = pred_boxes[:, 2:] - pred_boxes[:, :2] centers_pred = (pred_boxes[:, 2:] + pred_boxes[:, :2]) / 2. wh_target = target_boxes[:, 2:] - target_boxes[:, :2] centers_target = (target_boxes[:, 2:] + target_boxes[:, :2]) / 2. inter_wh = torch.min(wh_pred, wh_target) inner_area = inter_wh[..., 0] * inter_wh[..., 1] outer_wh = torch.max(wh_pred, wh_target) outer_area = outer_wh[..., 0] * outer_wh[..., 1] union_area = wh_pred.prod(dim=-1) + wh_target.prod(dim=-1) - inner_area iou = inner_area / union_area.clamp(min=1e-7) ratio = ((centers_pred - centers_target).abs() / outer_wh).prod(-1)**0.5 niou = iou * ratio return 1 - niou.mean() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值