Robust Consistent Video Depth Estimation_具有鲁棒一致性的视频深度估计-优快云博客

论文 Code

核心：利用卷积神经网络训练

单张图像深度估计
优化深度图的对齐
连续优化
- 共同优化相机位姿参数的内外参
- 估计的深度图3D对齐
解决Naive alignment：提出一种更灵活变形的模型，利用空间不同样条函数。
- 准确、低频、大规模对齐
解决高频细节和解除晃动残差：提出一种具有几何感知的深度过滤器
- 高频、对齐、好的深度细节（在前一阶段精确对齐，从而不会模糊细节）

摘要

介绍

摘要

文章提出了一种算法：

对象：处理单眼视频
结果：深度一致的密集深度图；相机姿态。
方法：基于学习的深度先验——利用卷积神经网络训练单张图像深度估计方式+几何优化=平滑的相机轨迹+详细稳定的深度重建。具体包括两部得分：
- 灵活的变形曲线——低频大规模对齐
- 几何感知——高频对齐（好的深度细节）
特点：文章不需要相机位姿。也能克服手持视频所带来的大量噪音、抖动、运动模糊和滚动快门变形的缺点，获得具有鲁棒性的重建。

本文方法在深度和姿态估计方面，在定量上优于最先进的基准，并在不同的野外数据集上获得了良好的定性结果。

介绍

单帧深度的稠密预测——中间特征表示，应用于3D视频稳定、增强现实以及特效等方面。对于随意捕获的视频，估计其准确一致的深度图还是具有一定挑战性的，其中，手机拍摄是小的图像传感器，会产生很多噪声图像，尤其是在灯光昏暗的场景，使用滚动快门也会导致摇晃图像变形。手持拍摄的视频往往会有镜头的晃动和运动模糊、运动的物体，比如人、动物、交通工具。在这些因素导致图像退化之外，三维重建还存在基础的的问题：纹理较差区域的处理、重复的图案以及遮挡问题。

Traditional algorithms——稠密重建的传统方法是SFM和MVS，但都存在各自的缺点。

SFM：受限于通信的准确性和可用性，有时会完全失败，阻碍进一步的处理。
MVS：往往包含大量的空洞和噪声。

Learning-based algorithms——先前的工作利用帧的像素点匹配和几何三角，这种方法是从不同的数据集学习先验。这种方法可以解决许多前面所提及的问题。但是，估计的深度只在尺度上被细化，结果虽然具有一定的可信度，但并不一定准确，具体而言，它缺乏几何一致性。

Hybrid algorithms——基于学习的先验+几何推理，实现两种方法的优势互补。利用SFM估计，假设每帧精确的相机位姿，但SFM不具有鲁棒性，可能无法为每一帧生成结果，或者，产生具有大误差的离群姿态。换句话说，混合算法的成功估计很大程度取决于位姿估计的准确性。由此带来的鲁棒性不稳定，那么这就不适合许多基于现实的应用，因为他们可能以不可预测的方式失败。

DeepV2D：提出了一种混合方法——交错位姿和深度估计，以实现理想的收敛性，它在静态场景上表现得相当好，但仍然不能证明处理动态场景的能力。

本文提出的新算法——具有鲁棒性，不需要位姿输入：

利用一个卷积神经网络——专门用于训练单图像深度估计作为深度先验，并优化深度图的对齐。
主要参考的Luo的工作，但Luo的工作测试时间微调公式需要预先在跨帧匹配像素之间建立几何关系，也就是说，需要精确校准的相机姿态和全帧深度比例因子。
相比之下，本文联合优化外在和内在的相机位姿参数，同时三维对齐的估计深度图使用连续优化。
- 其中，使用刚性尺度变换的原始的对齐不会导致精确的姿态，因为独立估计的每帧深度映射通常包含随机的不准确性。这会进一步导致错位，不可避免地增加估计相机轨迹的噪声误差。因此，转向一个更灵活的变换模型，使用空间变化的样条曲线来解决它，进而提供了更精确的对齐，连续，导致更平滑和更准确的轨迹。
- 基于样条曲线的变换方法实现了精确的低频对齐。为了进一步改进高频细节和消除剩余的抖动，使用了一个几何感知的深度滤波器。这个过滤器能够带出精细的深度细节，而不是因为前一个阶段的精确对齐而模糊它们。