ICCV2021 | DepthInSpace：多帧影像信息在单目结构光深度估计中的应用

原创

已于 2022-03-25 10:17:09 修改 · 581 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习 #自监督 #结构光

于 2022-03-25 10:15:59 首次发布

本文提出DepthInSpace方法，利用多帧环境光影像辅助单目结构光深度估计，通过光流预测和视差图融合改善深度估计精度。

作者‖ flow 毕业于中国科学院大学，人工智能领域优质创作者
编辑‖ 3D视觉开发者社区

导语：

本文作者提出利用多帧影像可辅助单目结构光训练，在资源有限的情况下，可使用融合的视差图调整单帧视差估计网络。希望能对基于深度学习的单目结构光估计相关研究人员有一定参考帮助。

在这里插入图片描述
DepthInSpace: Exploitation and Fusion of Multiple Video Frames for Structured-Light Depth Estimation

论文地址：
https://paperswithcode.com/paper/depthinspace-exploitation-and-fusion-of

附件链接 ：https://openaccess.thecvf.com/content/ICCV2021/supplemental/Johari_DepthInSpace_Exploitation_and_ICCV_2021_supplemental.pdf

数据链接：
https://www.idiap.ch/paper/depthinspace（注：尽管论文提供了所谓的数据链接，但目前暂未更新。）

0. 概述

我们知道，带有结构光相机的深度传感器，普遍配备的是传统的算法，比如说kinect v1采用的块匹配算法，Intel RealSense采用的半全局匹配算法。相对来说，深度学习在该领域中的蔓延暂时还是比较少的。

UltraStereo（CVPR 2017） 通过对影像块进行二值编码，来实现低复杂度的匹配机制；HyperDepth（CVPR 2016） 将深度估计问题视作分类问题，进而通过机器学习的方式，具体来说是级联的随机森林对其进行求解，然而，HyperDepth获取GT的方式是：从高精度的传感器中获取，或者从其他的立体匹配方法获得，换句话说，HyperDepth使用的是有监督的方式。至于connecting the dots（CVPR 2019），则应用了**ActiveStereoNet（ECCV 2018）**中的光度损失函数，并提出了一个边缘检测的网络来应对edge-fattening问题。
该文在connecting the dots的基础上，进一步地做出以下几个贡献：

1.其模组可以采集环境光影像。进而，利用序列环境光影像进行光流预测，从而辅助单目结构光的训练；
2.融合多帧，进而获得边缘更清晰，伪影更少的视差图；
3.在资源有限时，可以使用融合的视差图来finetune单帧的视差估计网络，可以获得非常好的效果。

1.方法

以下将connecting the dots 简称为CTD，该文所提出的DepthInSpace模型简称为DIS。

DIS模型在CTD模型的基础上进行改进。CTD模型使用了两个分离的网络分别用于视差估计以及边缘检测。其中，用于边缘检测的网络，由环境光（ambient）影像（以下将称为泛光图）进行程度较弱的监督。然而，DIS认为，泛光图的抓取非常的简便，而且完全可以起到更大的作用，仅仅用于边缘检测有些浪费信息，为什么不再对其进行充分利用呢？因此，DIS进一步地，利用泛光图来进行光流的预测，从而提供更多的信息。

对于DIS而言，下表为其几个版本的模型简称及说明：

模型简称	全称	说明
DIS-SF	DepthInSpace Single-Frame	见全称
DIS-MF	DepthInSpace Multi-Frame	见全称
DIS-FTSF	DepthInSpace Fine-Tuned Single-Frame	使用DIS-MF的结果作为伪GT，进而再引入一个损失函数，对DIS-SF进行所谓的finetune。