解释无监督多帧弹幕深度估计的物体运动和遮挡 Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocul

原创

已于 2022-11-23 15:32:58 修改 · 831 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

于 2022-11-09 15:34:53 首次发布

本文针对无监督多帧单目深度估计中的物体运动和遮挡问题，提出了动态对象运动解释模块（DOMD）和遮挡感知成本体积。DOMD利用先验深度预测解决运动物体失配，而遮挡感知成本体积则改进了成本计算，有效处理遮挡情况。通过动态对象周期一致性损失，增强深度预测的准确性。实验表明，该方法在Cityscapes和Kitti数据集上表现出色。

Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth

解释无监督多帧弹幕深度估计的物体运动和遮挡

知识点：成本量构建，由于我本身不做立体匹配，所以开始理解的时候较为困难，也比较难区分单帧深度估计和多帧深度估计，查阅文献后，总结如下，立体匹配的成本量，其实就是相邻帧特征图的视差，最后经过上采样取到数后得到深度图，而立体匹配在推理时是必须要多帧输入的，我们常做的模型在训练结束后，只需要单帧图像即可得到深度信息。

0 Abstract

传统的自监督单目深度估计是基于静态世界的假设所建立的，所以运动物体会导致深度估计精度下降。现有的方法尽在训练损失级别上解决了运动物体的失配问题，而本文提出了一种新颖的多帧单目深度估计方法，通过动态运动解释模块（DOMD）来解决适配问题，并设计了新的遮挡感知成本体积和再投影损失。在cityspaces和kitti上效果良好。

1 Introduction

单目深度估计由于无需昂贵的传感器或标记数据，所以工业界和研究界被广泛的使用。但常规的单目深度估计采用重投影损失来计算相邻帧之间的几何一致性，但他们无法预测网络中水平帧的几何一致性，这限制了他们的性能。
现实世界中存在大量时间和空间连续的图像，近年来，基于时间图像的多帧单目深度预测方法被研究人员广泛关注。但是这些方法大多是基于静态世界假设，这使得运动物体的深度估计总是存在误差。
最近的一些方法，例如对运动物体进行语义分割、mom