三维重建与自动驾驶的契合点在哪里?盘一盘近几年SOTA方法!

文章综述了基于深度学习的多视图立体方法,包括MVSNet的端到端深度图学习,R-MVSNet通过GRU降低内存消耗,IterMVS的迭代概率估计,TransMVSNet的全局上下文Transformer,以及MVSTER和MVSFormer的Transformer在多视图立体中的应用,这些方法在3D重建中提高了效率和准确性,尤其在自动驾驶、机器人和虚拟现实等领域具有广泛的应用潜力。

由于3D重建在许多领域的广泛应用,例如自动驾驶、机器人和虚拟现实,其最近引起了越来越多的关注。作为人工智能中的一项关键技术,深度学习已被成功应用于解决各种计算机视觉问题。然而,由于独特的挑战和变化的机制,基于深度学习的3D重建仍处于起步阶段。MVS被认为是基于图像的3D重建的关键任务,本文综述了基于深度学习的多视图立体(MVS)方法的发展情况。

1、MVSNet(ECCV2018)

MVSNet: Depth Inference for Unstructured Multi-view Stereo.

MVSNet是第一个基于深度学习的MVS重建架构。提出一种端到端的多视图重建深度学习架构,参考基于2张图片的代价体的双目立体匹配深度估计方法,扩展到多张图片中进行深度估计。MVSNet的核心不是直接把3D模型建出来,而是端到端的学习深度图,它的目标是预测图片上每个像素的深度信息。在该架构中,首先提取深层的视觉图像特征,然后通过可微分的单应变换,基于参考视图的相机视锥体构建3D代价体。然后使用3D卷积对初始深度图进行正则化和回归得到初始的深度图,初始的深度图通过参考图像改进得到最后的深度图。MVSNet框架可以灵活地处理任意数量视图,因为基于方差的代价指标可将多个特征映射为一个代价特征。MVSNet在大规模室内数据集DTU上进行验证不仅显著优于以前的先进技术,而且运行时速度快了几倍。在复杂的户外Tanks and Temples数据集上评估MVSNet,无需任何微调,MVSNet在排行榜上位列第一,证明了网络具有很强的泛化能力。但MVSNet在正则化时将整个代价体作为输入,其内存消耗随尺度增加且是立方级增加,限制了模型在高分辨率应用场景的可扩展性。

网络结构如下:

d96d1d22e446468c7ea3b5f12669e611.png

MVSNet的概述如上图所示,网络的输入是一张参考图像(reference image)和一系列的源图像(source image),每次计算一个参考图像的深度图,而不是立即计算整个三维场景,这样的思路保证了大规模三维重建的可行性。通过使用可微的单应性矩阵变换,将2D的图像特征转换到基于相机视锥的特征体,并将基于方差的N个特征体合并成一个代价体,实现了将相机的几何信息编码到网络中,并能适应不同数目的多视角图像输入,保证了深度学习中端到端的训练。网络过程包括特征提取、特征体构建、生成代价体、代价体正则化、深度图初始估计、深度图优化、损失计算。特征提取目标是提取每幅输入图像的特征,输入1个参考图像+N个原图像,输出N+1个1/4原尺寸32通道的特征图。特征体构建目标是将所有特征图变换到参考相机的视锥体体空间,形成N+1个特征体Vi。生成代价体目标是将N+1个特征体聚合为一个统一的代价空间C(D,W,H,F),其中D、W、H、F为深度采样数、输入图像的宽度,高度的1/4和特征图的通道数。代价体正则化目标是根据代价空间C得到概率空间P,使用类似于3D-UNet的编码器-解码器结构,以相对较低的内存和计算成本,从一个大的感受野聚集相邻的信息。深度图初始估计目标是从概率空间P中获取深度图。深度图优化是利用参考图像的边界信息优化深度图。损失计算过程使用L1损失,分别对初始深度图和优化深度图进行损失计算,再以权重系数λ相加,λ一般设置为1.0。

7b96bf46deeb7d3ef743ec4510f8a197.png
### 关于三维重建中SSIM指标的最新状态或最优方法 在讨论三维重建中的结构相似性指数(Structural Similarity Index, SSIM)时,需注意到这一指标最初被设计用于二维图像的质量评估。然而,在现代三维重建领域,研究人员逐渐将其扩展至多视角和体积渲染场景下的质量评价。 #### 1. **基于NeRF的三维重建SSIM** 近年来,神经辐射场(NeRFs)成为三维重建的重要工具之一[^2]。尽管NeRF主要关注的是视觉质量和几何精度,但在其训练过程中通常会结合多种损失函数来优化重建效果,其中包括MSE(均方误差)、PSNR(峰值信噪比),以及SSIM等指标。最新的研究表明,当使用SSIM作为辅助损失项时,能够显著提升重建结果的感知质量[^4]。这是因为SSIM不仅衡量亮度差异,还捕捉到了局部对比度和结构信息的变化。 ```python import torch from pytorch_msssim import ssim def compute_ssim_loss(output_images, target_images): """ 计算SSIM损失 """ loss = 1 - ssim(output_images, target_images, data_range=1., size_average=True) return loss ``` 上述代码片段展示了如何实现基于PyTorch框架的SSIM损失计算功能,这对于改进NeRF或其他体素网格表示形式下的三维重建非常有用。 --- #### 2. **高斯溅射(Gaussian Splats)SSIM的应用** 除了NeRF外,另一种新兴的技术——高斯溅射(GS)也广泛应用于动态场景的三维重建任务中。相比传统的方法,GS能够在较低内存消耗的情况下生成高质量的三维模型。针对这类方法,研究者们同样引入了SSIM以增强最终输出的一致性和细节表现力。值得注意的是,某些SOTA算法已经证明通过联合优化MSE加权后的SSIM可以获得更加自然真实的纹理映射效果。 --- #### 3. **EdgeSRGAN及其对SSIM的支持** 虽然EdgeSRGAN主要用于单幅图像超分辨率处理(SISR),但它所提出的轻量级架构设计理念也为实时三维重建提供了借鉴意义。具体而言,该模型强调减少参数数量的同时维持较高的LPIPS得分,这表明即使是在资源受限环境下也能取得接近人类主观判断的最佳平衡点。如果将此类思想迁移到三维重建流程里,则可能进一步推动SSIM等相关评测标准的发展进程。 --- #### 结论 综上所述,当前有关三维重建领域的最先进做法往往倾向于综合利用多项评估准则来进行综合考量,而不仅仅依赖单一维度上的数值比较。特别是在涉及复杂光照条件或者非刚体变形物体建模等问题时,合理配置包含但不限于SSIM在内的多元组合显得尤为重要。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值