Bounding-box regression

1. 输入 :N 个训练对

\left \{ \left ( P^i,G^i \right ) \right \}_{i=1,...,N},其中,P^i = \left ( P^i_x, P^i_y, P^i_w, P^i_h \right )    表示 的是Proposal的中心点坐标和宽高。

方便叙述,以下公式中上标i均略去显示。

另外,G = \left ( G_x, G_y, G_w, G_h \right ) 表示的是Ground-truth 的 中心点坐标和宽高。

2.输出:预测的 ground-truth \hat{G}

边框回归的目标是学习一种映射关系,来完成Proposal P到  ground-truth G的映射。

首先通过d_x\left ( P \right ) 和 d_y\left ( P \right ) 完成中心点的平移,再通过d_w\left ( P \right ) 和 d_h\left ( P \right ) 完成尺度的缩放

\begin{align} \hat{G_x} = P_wd_x(P) + P_x \qquad \\ \hat{G_y} = P_hd_y(P) + P_y \qquad \\ \hat{G_w} = P_wexp(d_w(P)) \qquad \\ \hat{G_h} = P_hexp(d_h(P)) \qquad \end{align}

每个函数 d_{\star}(P)(where \;\star\; is \;one\; \;of\; x,y,h,w ) 可以被表示为Proposal P的 pool5 特征的线性函数,记为 \phi_{5}(P)

即有:d_{\star}(P) = \mathbf{w^T_\star\phi_{5}(P)},其中w_\star是可学习的模型参数向量。

w_\star 可通过 优化正则化的最小均方误差损失学习到:

\mathbf{w_\star} = \underset{\mathbf{\hat{w}_\star}}{argmin\sum_{i}^{N}} \left ( t^i_{\star} - \mathbf{\hat{w}^T_\star\phi_{5}(P)}\right )^2 + \lambda \left \| \mathbf{\hat{w}_\star} \right \|^2

对于训练对(P,G)的回归目标t_\star定义如下:

\begin{align} t_x = (G_x - P_x)/ P_w \qquad \\ t_y = (G_y - P_y)/ P_h \qquad \\ t_w = log(G_w/P_w) \qquad \\ t_h = log(G_h/P_h) \qquad \end{align}

作者实现边框回归的时候遇到2个小问题。第一,正则化因子非常重要,作者根据验证集设置\lambda = 1000.

第二,选择训练对(P,G)的时候必须非常小心。 如果P和G离得太远,映射P到G会没有意义,这样的P会

导致学习不到东西。因此,作者只使用和G非常靠近的一些P(IoU > 0.6)来训练网络。作者通过给每个P指向

唯一的一个G(IOU最大且IOU>0.6)来实现 "距离最近"。

reference:

1.https://arxiv.org/abs/1311.2524

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值