从自动驾驶应用的角度来看这篇论文,首先是无监督的方法使大规模的训练成为可能
1.主旨思想
今天分享的这篇论文,采用了无监督的方法针对视频数据进行训练,从而对单张图片的深度以及连续帧之间的车辆运动进行估计,可以对大量已知相机内参的视频数据进行训练,为 CNN 在自动驾驶领域的应用带来的新的启发。
2.网络构建(端到端的卷积神经网络)
两个网络的互溶:
用视频连续帧的不同视角的几何信息作为监督信号训练了一种端到端的单目图像深度估计和车辆运动估计的 framework,
1)Depth CNN(输入是单目视角的视频某帧)
2)Pose CNN(视频连续帧的不同视角)
3)Loss (将当前帧图像结合预测的深度图以及帧间转移投影到临近帧上,计算像素误差作为训练的 loss,对两个网络进行联合训练)
4)参考的算法:ground-truth pose && depth
3.算法依赖的思想:
1)无监督卷积神经网络,兼容多场景训练
2)optical-flow的pipeline算法:保证网络必须同时学到深度估计和帧间转移估计才能使 loss 最小,联合训练
3)卷积与反卷积的网络结构:这种卷积再反卷积的网络结构比较经典,广泛应用于深度预测(Flow-net 等)
4)multi-scale和smoothness loss机制解决局部梯度最优解的问题
5)explainability mask的算法,用于解决图像中的运动物体以及随视角变化的遮挡情况。
4. 网络构建的具体过程:
depth CNN:网络结构是在 DispNet 的基础上加上了 multi-scale 的输出。
pose CNN:Pose/e