自从17年MonoDepth系列论文问世, 单目自监督深度估计算法越来越受到研究者的重视。人们发现, 在自动驾驶场景中,原来单目自监督方法也能计算出不错的深度效果。但是单目深度估计方法的可解释性比较弱,从单张图片推测出深度的原因可能有:
-
Perspective projection带来的近大远小关系(下图1);
-
景深变化带来的模糊感(下图2);
-
遮挡效应,被遮挡物应该距离更远(下图3);
以上种种原因很难具体解释单目深度估计的效果,因为单目深度估计本身就是一个ill-posed的问题,这也造成了单目深度的精度远远低于双目深度(Stereo Depth),多目深度(MVS)。
那么有没有一种方案可以大大提升单目深度估计的精度,并且增加其可解释性呢?答案就是“单目多帧深度估计”。单目多帧深度估计方案使用的仍然是单个相机,不过从原来的单帧(Frame )输入,变为了多帧(Frame , Frame , ...)输入。如下图所示,当相机在运动时,不同时刻拍摄的照片之间自然构成了多目立体几何的视觉关联,所以我们可以利用现有的几何技术(MVS), 来提升我们的单目深度估计精度。
值得一提的是,MVS只能应用在静态场景中(i.e., 上图时刻和时刻被拍摄物体object没有移动),对于自动驾驶场景,静态条件很难满足,因为大多数时刻路面上的车、行人都是在运动的。因此我们可以大致得出一个结论:多帧深度估计在静态区域的精度会比单帧深度估计准确,但是在动态区域(或者其他MVS会失效的情况,例如弱纹理区域、反光区域、相机静止(static frame)等),单帧深度估计的结果会比多帧深度估计准确许多。
在本篇Blog中,我们将分享2021-2022年的几篇多帧自监督深度估计方案,看看他们是如何结合单帧、多帧深度估计方案,去得到更加鲁邦、精确的深度结果。在开始之前,我们先回顾一下单帧自监督深度估计方案(MonoDepth)的基本pipeline:
-
通过encoder+decoder将输入的单帧图像编码成深度.
-
输入的图像,通过编码器得到他们之间的外参矩阵.
-
通过外参矩阵以及深度, 我们可以将把时刻的图像 warp到时刻,得到预测的时刻图像,然后与真实的时刻图像计算loss,从而完成自监督训练。
The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth (CVPR2021)
本篇论文别名ManyDepth,它的网络结构图如下图所示,虽然看起来比较复杂,但是如果将红色框部分换成单帧图像的特征,那么就变成了上图MonoDepth的深度估计部分.所以本文的亮点就在于将单帧图像的输入拓展为多帧图像构建的cost volume作为输入。

本文探讨了单目多帧深度估计的最新进展,介绍了几种典型方法,包括ManyDepth、DepthFormer和DynamicDepth等,并讨论了它们如何结合单帧和多帧信息以提高深度估计的准确性。
最低0.47元/天 解锁文章
547

被折叠的 条评论
为什么被折叠?



