【目标检测】Bounding Box Regression

本文深入解析BoundingBox回归在目标检测中的作用及其实现方法。详细介绍了从候选区域到精确边界框的调整过程,以及如何通过线性变换实现边界框的微调。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Bounding Box是目标检测中一个重要概念。常见格式是边界框左上角坐标、右下角坐标,即[xmin,ymin,xmax,ymax];或者边界框中心坐标,宽高,即[x_center,y_center,w,h]。

Bounding Box Regression的作用

以下图为例,红色框表示Ground Truth, 蓝色框为网络输出的候选区域框Region Proposal。蓝色框被分类器识别为person,但因框定位不准(IoU<阈值), 则也是检测失败。 Bounding Box Regression的目的就是对蓝色框微调,使得经过微调后的窗口跟真实边界框更接近[1]。

 

如何进行Bounding Box Regression

以四维向量(x,y,w,h) 表示的Bounding Box为例, 即窗口的中心点坐标[x,y]和宽高[w,h]。P=[P_x,P_y,P_w,P_h]表示原始的Region Proposal,  G=[G_x,G_y,G_w,G_h]表示Ground Truth,Bounding Box Regression的目标是寻找一种函数关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口G更接近的回归窗口\hat{G} = [\hat{G}_x,\hat{G}_y,\hat{G}_w,\hat{G}_h]。[2]

P通过线性变换得到\hat{G},对x,y做平移,对w,h做缩放。

边框回归就是学习这四个变换d_x(P),d_y(P),d_w(P),d_h(P)。RCNN中,对P经过pool5的特征层学习一个线性变换,参数为w_*。最后网络输出d_*(P)=w^T_* \phi_5(P)。该回归任务的target t_* 如下:

 

 

 

参考资料:

[1]边框回归(Bounding Box Regression)详解

[2]Rich feature hierarchies for accurate oject detection and semantic segmentation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值