The Loss of Bounding Box Regression

最新推荐文章于 2022-05-01 19:37:01 发布

转载最新推荐文章于 2022-05-01 19:37:01 发布 · 90 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/leebxo/p/10542632.html

探讨单目标回归在计算机视觉中的应用，特别是区域提议网络如何通过回归调整边界框以更精确地定位目标。分析L2Loss和SmoothL1Loss两种损失函数在回归任务中的优缺点，包括它们对预测值与真实值差距的处理方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

输入输出

Bounding Box Regressor 训练过程的输入由两部分组成:

data:原图或其feature
label: ground truth bounding box.

regression输出为一组可以确定n个bounding box的数值. 数值涵义由label决定.
本文讨论n=1的情况, 即Single box regression: 一张图片回归一个bounding box.

典型的应用出现在RCNN: Proposal太大时, 需要缩小范围以更精确的框出目标物体. 它的regressor的输入为一个proposal region, 输出为一个bounding box.

一个region由一个四维向量表示: P=(Px,Py,W,H), 其中, (Px,Py)为中心点的位置(RCNN)或左上角的位置(Fast RCNN), (W,H)为它的宽和高. 它对应的bbox ground truth由G=(Gx,Gy,Gw,Gh)表示, 各参数的涵义与P类似.

L2 Loss

用f(P)表示regressor的输出, 最简单粗暴的loss可以表示为:

L * = (f * (P) - G *) 2

其中,

∗∗代表

x,y,w,hx,y,w,h, 整个loss :

L=Lx+Ly+Lw+LhL=Lx+Ly+Lw+Lh .
也就是说直接预测bbox的绝对坐标与绝对长度. 但是这样会出现一个问题: loss的大小会受到图片大小的影响, 不大合理. 例如, 当ground truth 分别为

(100,100,200,200)(100,100,200,200),

(10,10,20,20)(10,10,20,20)时, 假如分别得到

(90,90,200,200)(90,90,200,200),

(8,8,20,20)(8,8,20,20)的bbox预测值. 那么前者对应的loss会远大于后者, 但是从实际情况上来看,

100−90100=0.1,10−810=0.2100−90100=0.1,10−810=0.2, 前者的相对误差要小于后者. 所以需要一个规范化(normalization)处理. 若在loss上规范化:

L x = (f x ( P ) - G x ) W) 2

L y = (f y ( P ) - G y ) H) 2

L w = (f w ( P ) - G w ) W) 2

L h = (f h ( P ) - G h ) H) 2

其中,

W,HW,H分别为输入图片的宽与高.
这样loss是不受绝对大小的影响了, 但是还有一个问题:

f(P)f(P)直接输出了绝对距离, 这种输出值是没有上下限的. 目测会让训练过程的收敛变得困难甚至不可能.(个人推测, 未验证/考证.). 另外, 学习速率的选择也会变得困难. 所以, 规范化操作要在label上进行. 即, 将回归目标规范化, 例如RCNN中使用的target为:
这里写图片描述