bbox回归预测时所采用公式思路讨论（1）

最新推荐文章于 2025-06-20 11:09:52 发布

明明可以早点起

最新推荐文章于 2025-06-20 11:09:52 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： deeplearning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/LIXIAOLONGJIEQUAN/article/details/78417319

deeplearning 专栏收录该内容

19 篇文章

订阅专栏

本文探讨了目标检测任务中，为何使用特定的bbox回归公式tx=(x-xa)/wa, ty=(y-ya)/ha, tw=log(w/wa), th=log(h/ha)，而不是更直观的tx=x-xa, ty=y-ya, tw=w/wa, th=h/ha。通过数学推导解释了这一选择的原因，并分析了采用对数形式的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在深度学习框架中，从faster rcnn开始，中间的预测模型，不如ssd,yolo,yolov2等，一直在用如下公式对bbox的位置进行回归，
tx=(x-xa)/wa
ty=(y-ya)/ha
tw=log(w/wa)

th=log(h/ha)

这里，其实很多人看到这里时，会有个疑问，为什么不用如下公式来做回归呢？
tx=x-xa
ty=y-ya
tw=w/wa

th=h/ha

这样不是更加直观，简洁么？

其实，采用上面的公式，原因如下。

这里 x,y,w,h,分别代表当前的bbox的左上角点的横轴，左上角点的纵轴，宽和高。

xa,ya,wa,ha 分别代表ground truth的相应参数。

这里，要从x回归得出xa，与两个bbox中心点的位移和宽度的变化倍数有关，两者关系如下：

假设两个矩形中心点位移为d

xa +0.5*wa = x+0.5*w+d.

这里w 和wa肯定也是有个函数关系的,定为wa = tw*w,那么上式就变为：

xa+0.5wa = x+0.5*wa/tw+d,

从上式上看，xa 与x的位置关系，由wa和d共同决定，换算如下公式为：

(x-xa)/wa = 0.5-0.5/tw-d.

这样就可以把上式右边的部分等价为一个未知量tx,来回归得到。

同理ty。

那么来看tw=log(w/wa)的道理。

这个我感觉主要因为计算机在数值计算上精度不够，才采用指数来运算的，就好像我们采用softmax一样。

利用了指数函数把无限小的数据映射为0，把0映射为1的特性，避免了计算机的精度粒度，在处理过小数据时，不够用的问题。

同理th=log(h/ha),也一样。

不知道我说的对不对，大家有没有补充、纠正的，请不吝赐教啊，

注：在bbox回归预测时所采用公式思路讨论（2）中，我打算讨论下yolov2在这上面的改进工作，说说原理，这样做的好处，以及实际实验结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。