文章链接:https://arxiv.org/pdf/2408.16767
git链接:https://liuff19.github.io/ReconX
亮点直击
ReconX,一种新颖的稀疏视角3D场景重建框架,该框架将模糊的重建挑战重新定义为时间生成任务。
将3D结构指导融入视频扩散模型的条件空间中,以生成3D一致的帧,并提出了一种基于置信度的3D优化方案(3DGS),以便在生成的视频基础上重建场景。
大量实验表明,ReconX在各种真实世界数据集上在高保真度和通用性方面优于现有方法。
3D场景重建的进展使得我们能够将来自现实世界的2D图像转换为3D模型,通过数百张输入照片生成逼真的3D结果。尽管在密集视角重建场景中取得了巨大成功,但从不足的捕捉视角中渲染详细场景仍然是一个难以解决的优化问题,常常导致未见区域出现伪影和失真。
本文提出了ReconX,一种新颖的3D场景重建范式,该范式将模糊的重建挑战重新定义为时间生成任务。关键的洞察在于释放大型预训练视频扩散模型在稀疏视角重建中的强生成先验。然而,直接从预训练模型生成的视频帧难以准确保持3D视角一致性。为了解决这个问题,ReconX首先根据有限的输入视角构建全局点云,并将其编码到上下文空间中作为3D结构条件。以此条件为指导,视频扩散模型生成的帧不仅能保留细节,而且展示高程度的3D一致性,从而确保从不同视角观看场景的一致性。最后,通过一种基于置信度的3D Gaussian Splatting优化方案从生成的视频中恢复3D场景。在各种真实世界数据集上的大量实验表明,ReconX在质量和通用性方面优于现有的最先进方法。
研究ReconX的动机
本文关注的是从非常稀疏的视角(例如,仅两个视角)图像中进行3D场景重建和新视角合成(NVS)的基本问题。大多数现有的研究(利用3D先验和几何约束(如深度、法线、代价体积)来填补稀疏视角3D重建中观测到的区域与新区域之间的差距。尽管这些方法能够从给定的视角生成高度逼真的图像,但由于视角不足以及由此产生的重建过程不稳定性,它们往往难以在输入视角不可见的区域生成高质量图像。为了解决这个问题,一个自然的想法是增加更多观测,从而将欠定的3D创建问题转化为一个完全约束的3D重建问题。
最近,视频生成模型在合成具有3D结构的视频片段方面显示出了前景。这激发了研究者们释放大型预训练视频扩散模型的强生成先验,以为稀疏视角重建创建时间上连贯的视频帧。然而,这并非易事,主要挑战在于视频帧之间的3D视角一致性差,这显著限制了下游3D Gaussian Splatting(3DGS)训练过程。为了在视频生成中实现3D一致性,首先从3D分布的角度分析视频扩散建模。设 为来自任何3D场景的渲染2D图像集合, 为渲染数据 的分布,目标是最小化散度 :
其中, 是由参数 (骨干网络中的参数)和 (所有数据共享的嵌入函数)参数化的扩散模型。在普通的视频扩散模型中,他们选择了 CLIP模型 来添加基于图像的条件(即,)。然而,在稀疏视角3D重建中,只有有限的2D图像作为条件无法提供足够的指导来逼