由于3D重建在许多领域的广泛应用,例如自动驾驶、机器人和虚拟现实,其最近引起了越来越多的关注。作为人工智能中的一项关键技术,深度学习已被成功应用于解决各种计算机视觉问题。然而,由于独特的挑战和变化的机制,基于深度学习的3D重建仍处于起步阶段。MVS被认为是基于图像的3D重建的关键任务,本文综述了基于深度学习的多视图立体(MVS)方法的发展情况。
1、MVSNet(ECCV2018)
MVSNet: Depth Inference for Unstructured Multi-view Stereo.
MVSNet是第一个基于深度学习的MVS重建架构。提出一种端到端的多视图重建深度学习架构,参考基于2张图片的代价体的双目立体匹配深度估计方法,扩展到多张图片中进行深度估计。MVSNet的核心不是直接把3D模型建出来,而是端到端的学习深度图,它的目标是预测图片上每个像素的深度信息。在该架构中,首先提取深层的视觉图像特征,然后通过可微分的单应变换,基于参考视图的相机视锥体构建3D代价体。然后使用3D卷积对初始深度图进行正则化和回归得到初始的深度图,初始的深度图通过参考图像改进得到最后的深度图。MVSNet框架可以灵活地处理任意数量视图,因为基于方差的代价指标可将多个特征映射为一个代价特征。MVSNet在大规模室内数据集DTU上进行验证不仅显著优于以前的先进技术,而且运行时速度快了几倍。在复杂的户外Tanks and Temples数据集上评估MVSNet,无需任何微调,MVSNet在排行榜上位列第一,证明了网络具有很强的泛化能力。但MVSNet在正则化时将整个代价体作为输入,其内存消耗随尺度增加且是立方级增加,限制了模型在高分辨率应用场景的可扩展性。
网络结构如下:
MVSNet的概述如上图所示,网络的输入是一张参考图像(reference image)和一系列的源图像(source image),每次计算一个参考图像的深度图,而不是立即计算整个三维场景,这样的思路保证了大规模三维重建的可行性。通过使用可微的单应性矩阵变换,将2D的图像特征转换到基于相机视锥的特征体,并将基于方差的N个特征体合并成一个代价体,实现了将相机的几何信息编码到网络中,并能适应不同数目的多视角图像输入,保证了深度学习中端到端的训练。网络过程包括特征提取、特征体构建、生成代价体、代价体正则化、深度图初始估计、深度图优化、损失计算。特征提取目标是提取每幅输入图像的特征,输入1个参考图像+N个原图像,输出N+1个1/4原尺寸32通道的特征图。特征体构建目标是将所有特征图变换到参考相机的视锥体体空间,形成N+1个特征体Vi。生成代价体目标是将N+1个特征体聚合为一个统一的代价空间C(D,W,H,F),其中D、W、H、F为深度采样数、输入图像的宽度,高度的1/4和特征图的通道数。代价体正则化目标是根据代价空间C得到概率空间P,使用类似于3D-UNet的编码器-解码器结构,以相对较低的内存和计算成本,从一个大的感受野聚集相邻的信息。深度图初始估计目标是从概率空间P中获取深度图。深度图优化是利用参考图像的边界信息优化深度图。损失计算过程使用L1损失,分别对初始深度图和优化深度图进行损失计算,再以权重系数λ相加,λ一般设置为1.0。

文章综述了基于深度学习的多视图立体方法,包括MVSNet的端到端深度图学习,R-MVSNet通过GRU降低内存消耗,IterMVS的迭代概率估计,TransMVSNet的全局上下文Transformer,以及MVSTER和MVSFormer的Transformer在多视图立体中的应用,这些方法在3D重建中提高了效率和准确性,尤其在自动驾驶、机器人和虚拟现实等领域具有广泛的应用潜力。
最低0.47元/天 解锁文章
1010

被折叠的 条评论
为什么被折叠?



