基于混合注意力变换器的单目立体学习方法
1. 损失函数
网络能够以自监督的方式从输入的单目图像中学习物体的运动,并通过定义多任务损失函数使每个子网络共同完成下游任务。总损失函数包括光流损失$L_{oe}$、相机位姿损失$L_{ce}$和深度损失$L_{de}$,$\lambda_{oe}$和$\lambda_{ce}$分别表示联合光流和相机位姿估计中的损失比例。总损失函数表达式如下:
$L_{total} = \lambda_{oe}L_{oe} + \lambda_{ce}L_{ce} + L_{de}$
-
光流损失 :在光流估计中,光度损失函数可以重建网络估计的预测值与输入图像中真实值之间的差异。给定两个相邻图像$I_1$和$I_2$,通过对前一层预测的光流$I_2$进行翘曲,可以得到重建图像$\hat{I} 1$。光度损失函数可通过对翘曲图像前后的像素$p$求和得到:
$L {oe} = \sum_{p} \left| I_1(p) - \hat{I}_1(p) \right|_2$ -
相机位姿损失 :在相机位姿估计中,相机参数主要用于三角测量,从联合网络的倒数第三层到倒数第一层估计位姿。权重参数用$\lambda$表示,相机旋转和平移的真实值分别用$\tilde{\gamma}$和$\tilde{t}$表示:
$L_{ce} = \lambda \sum_{l = 1}^{3} \left| \gamma_l - \tilde{\gamma} \right| 2 + \sum {l =
超级会员免费看
订阅专栏 解锁全文
244

被折叠的 条评论
为什么被折叠?



