《Unsupervised Monocular Depth Learning in Dynamic Scenes》论文笔记-优快云博客

本文深入探讨了一篇关于如何在无需额外标注的情况下，利用深度学习估计动态场景中的深度和物体运动的论文。通过对刚性物体运动的特性分析，提出了一种隐式约束方法，减少了运动物体对深度估计的影响。网络结构基于深度估计和相机位姿估计，通过深度图平滑、循环一致性、图像域循环一致性和物体移动约束等损失函数优化。实验结果显示，这种方法在Cityscapes和KITTI数据集上表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考代码：depth_and_motion_learning

1. 概述

导读：这篇文章是在（Depth from Videos in the Wild）的基础上进行改进得到的，在之前的文章中运动区域/物体通过mask标注或是bounding box标注的形式确定，但是这样或多或少会存在对外依赖的问题。对此，文章从 刚性物体运动 在相机前运动的特性进行分析得出如下两个特性：
1）其在整幅图像中的占比是较少的，毕竟一般情况下不会运动的背景占据了较大的比例；
2）刚性运动的物体其内部运动特性是分段的常量值，也就是对应的梯度变化很小；
正是基于上述两点观察，文章在之前文章的基础上对运动物体区域构建了一个约束，从而减少了运动物体会深度估计带来的影响。

文章的方式是通过隐式约束的形式对刚性物体运动区域进行约束，从而避免了显示地对运动区域标注，因而文章的方法可以在输入2帧图像的情况下实现深度预测和物体运动感知，如下图所示：
在这里插入图片描述

2. 方法设计

2.1 网络结构

文章的网络结构如下图所示：
在这里插入图片描述
整体上这里网络结构与之前文章（Depth from Videos in the Wild）的网络结构类似，只是在一些细节上有所区别。这里深度估计网络的编解码结构是一致的，主要的不同点在相机位姿和内参估计网络上，在原本两帧图像输入基础上添加了深度估计结果作为输入。

2.2 损失函数

深度图平滑损失：
这部分损失是为了给深度估计结果带来平滑作用，减少噪声的产生，其损失函数描述为：
$L_{reg,dep}=\alpha_{dep}\iint(|\partial_ud(u,v)e^{-\partial_uI(u,v)}+\partial_vd(u,v)e^{-\partial_vI(u,v)}|d_ud_v$

循环一致性损失：
首先是变换矩阵的循环一致性约束，其描述为：
$L_{cyc}=\alpha_{cyc}\frac{||RR_{inv}-\mathbf{1}||^2}{||R-\mathbf{1}||^2+||R_{inv}-\mathbf{1}||^2}+\beta_{cyc}\iint\frac{||R_{inv}T(u,v)+T_{inv}(u_{warp},v_{warp})||^2}{||T(u,v)||^2+||T_{inv}(u_{warp},v_{warp})||^2}d_ud_v$