面向实际应用的室内单目深度估计 Toward Practical Monocular Indoor Depth Estimation

最新推荐文章于 2025-10-22 22:06:00 发布

原创

最新推荐文章于 2025-10-22 22:06:00 发布 · 1.6k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

本文提出了一种面向室内应用的单目深度估计框架，通过结构蒸馏技术改进现有方法。该框架利用Dense Prediction Transformers（DPT）学习相对深度，并结合汉明距离损失函数提高精度。针对室内场景复杂、无纹理区域多的特点，方法在模拟数据集SimSIN和真实数据集UniSIN上进行了验证，提高了模型的泛化性和准确性。此外，还介绍了新的室内立体图像数据集的收集，以增强模型的训练效果。

Toward Practical Monocular Indoor Depth Estimation

面向实际应用的室内单目深度估计

（个人观点）这一篇文中描述的工作就是DPT和一个汉明距离的损失函数，DPT是基于深度传感器训练的，汉明距离的两个损失也没有太多的创新，我个人认为指标的提升大概率是依靠了深度真值训练的DPT的结果。在摘要中描述的结构化蒸馏主要是针对DPT的，文中也没有做相关描述。总体上来说还是堆砌工作，但是顶会！

0 Abstract

现有的大多数单目深度估计方法都是在室外的驾驶场景中部署，由于室内的物体在距离摄像头较近的位置排列紧密且无规则，这种方法在室内的泛化性很差（场景不同导致模型的泛化性很差是基于数据驱动的方法的通病，这一点无可厚非，但是室内的环境总体上要比室外的环境复杂，这一点确实存在）。为了提高模型的鲁棒性，我们提出了一种结构蒸馏方式，从现成的相对深度估计器中学习诀窍，该估计器产生结构化和度量深度，并进行了实时的推理。本文方法在模拟数据集SimSIM和真实数据集UniSIM进行了评估和测试。

1 Introduction

本文工作提出了一个实用的室内单目深度估计框架，具有以下特点：从现有的估计器和没有深度注释的左右图像对中学习，高效的收集训练数据，提高跨数据集的泛化性、准确性和深度感应。我们的工作适用于消费级AR/VR，例如3D室内场景重建和虚拟对象插入以及环境的交互，最近自监督深度估计受到了广泛的关注，一些方法在室外的数据集例如KITTI和CiityScapes上进行训练，由于以下原因，导致室内的自监督深度估计会更具有挑战性。