三维重建与自动驾驶的契合点在哪里？盘一盘近几年SOTA方法！

原创

已于 2023-03-05 21:51:45 修改 · 1.2k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#自动驾驶 #计算机视觉 #深度学习 #人工智能 #机器学习

于 2023-02-21 07:30:26 首次发布

文章综述了基于深度学习的多视图立体方法，包括MVSNet的端到端深度图学习，R-MVSNet通过GRU降低内存消耗，IterMVS的迭代概率估计，TransMVSNet的全局上下文Transformer，以及MVSTER和MVSFormer的Transformer在多视图立体中的应用，这些方法在3D重建中提高了效率和准确性，尤其在自动驾驶、机器人和虚拟现实等领域具有广泛的应用潜力。

由于3D重建在许多领域的广泛应用，例如自动驾驶、机器人和虚拟现实，其最近引起了越来越多的关注。作为人工智能中的一项关键技术，深度学习已被成功应用于解决各种计算机视觉问题。然而，由于独特的挑战和变化的机制，基于深度学习的3D重建仍处于起步阶段。MVS被认为是基于图像的3D重建的关键任务，本文综述了基于深度学习的多视图立体(MVS)方法的发展情况。

1、MVSNet(ECCV2018)

MVSNet: Depth Inference for Unstructured Multi-view Stereo.

MVSNet是第一个基于深度学习的MVS重建架构。提出一种端到端的多视图重建深度学习架构，参考基于2张图片的代价体的双目立体匹配深度估计方法，扩展到多张图片中进行深度估计。MVSNet的核心不是直接把3D模型建出来，而是端到端的学习深度图，它的目标是预测图片上每个像素的深度信息。在该架构中，首先提取深层的视觉图像特征，然后通过可微分的单应变换，基于参考视图的相机视锥体构建3D代价体。然后使用3D卷积对初始深度图进行正则化和回归得到初始的深度图，初始的深度图通过参考图像改进得到最后的深度图。MVSNet框架可以灵活地处理任意数量视图，因为基于方差的代价指标可将多个特征映射为一个代价特征。MVSNet在大规模室内数据集DTU上进行验证不仅显著优于以前的先进技术，而且运行时速度快了几倍。在复杂的户外Tanks and Temples数据集上评估MVSNet，无需任何微调，MVSNet在排行榜上位列第一，证明了网络具有很强的泛化能力。但MVSNet在正则化时将整个代价体作为输入，其内存消耗随尺度增加且是立方级增加，限制了模型在高分辨率应用场景的可扩展性。

网络结构如下：

MVSNet的概述如上图所示，网络的输入是一张参考图像（reference image）和一系列的源图像（source image），每次计算一个参考图像的深度图，而不是立即计算整个三维场景，这样的思路保证了大规模三维重建的可行性。通过使用可微的单应性矩阵变换，将2D的图像特征转换到基于相机视锥的特征体，并将基于方差的N个特征体合并成一个代价体，实现了将相机的几何信息编码到网络中，并能适应不同数目的多视角图像输入，保证了深度学习中端到端的训练。网络过程包括特征提取、特征体构建、生成代价体、代价体正则化、深度图初始估计、深度图优化、损失计算。特征提取目标是提取每幅输入图像的特征，输入1个参考图像+N个原图像，输出N+1个1/4原尺寸32通道的特征图。特征体构建目标是将所有特征图变换到参考相机的视锥体体空间，形成N+1个特征体Vi。生成代价体目标是将N+1个特征体聚合为一个统一的代价空间C(D，W，H，F)，其中D、W、H、F为深度采样数、输入图像的宽度，高度的1/4和特征图的通道数。代价体正则化目标是根据代价空间C得到概率空间P，使用类似于3D-UNet的编码器-解码器结构，以相对较低的内存和计算成本，从一个大的感受野聚集相邻的信息。深度图初始估计目标是从概率空间P中获取深度图。深度图优化是利用参考图像的边界信息优化深度图。损失计算过程使用L1损失，分别对初始深度图和优化深度图进行损失计算，再以权重系数λ相加，λ一般设置为1.0。

最低0.47元/天解锁文章