motivation
在数据集方面:
目标检测中,会出现bounding box表示模糊的情况。比如标注不准确(a,c),遮挡(b),边界不清或无法给出确切边界(d):
在损失在设计方面:
作者指出,boundingbox 回归损失设计(如smooth L1 loss等)中,并没有对这种情况进行处理。同时,会认为分类置信度高的框更加精准,因此会出现下图高分反而不准的情况:
(这一点问题和IOUnet一样,作者声称自己的方法超越了它)
因此作者提出KL Loss,同时为了捕捉到box预测时的不确定性,对box预测和GT分别进行高斯分布和狄拉克函数的建模,有如下优点:
1.可以"捕获"到数据集中的模糊,对模糊的box回归器得到更小的loss
2.学习到的方差可以在后处理中得以运用
3.学习到的概率分布具有可解释性,因为反映了bounding box预测的不确定性
method
KL LOSS
作者期望估计出一个“回归置信度”。对此采用如下做法:
除了回归坐标之外,网络还要预测出一个概率分布,在本文中作者假设坐标之间相互独立,使用高斯模型:
Xe是预测出的bounding box坐标位置,σ{\sigma}σ代表分布的不确定性(越大则代表不确定性越大)。
因此优化目标是最小化KL散度:
回归损失进行修改,分类损失不变:
如图,作者希望借此使得网络在预测出不准确的坐标时,能够输出较大的σ2\sigma^{2}