CVPR'25 | NVIDIA新作Difix3D+：单步扩散改进NeRF和3DGS重建！

最新推荐文章于 2025-07-11 09:41:05 发布

转载最新推荐文章于 2025-07-11 09:41:05 发布 · 525 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247657568&idx=4&sn=c32443838b87fa665fe1f1c72ad459ae&chksm=cf313e2f131c89ac10d68a7d349aba39bc6edb4b0678901e76bb5c4f40db605b5fd79dd3d05b&scene=126&sessionid=0

文章标签：

#3d

作者 | 3DCV

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

0. 论文信息

标题：Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

作者：Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling

机构：NVIDIA、National University of Singapore、University of Toronto、Vector Institute

原文链接：https://arxiv.org/abs/2503.01774

代码链接：https://research.nvidia.com/labs/toronto-ai/difix3d

1. 导读

神经辐射场和三维高斯分布已经彻底改变了三维重建和新视图合成任务。然而，从极端新颖的角度实现照片级真实感渲染仍然具有挑战性，因为伪像会在表示中持续存在。在这项工作中，我们介绍了Difix3D+，这是一种新的管道，旨在通过单步扩散模型增强3D重建和新视图合成。我们的方法的核心是Difix，这是一种单步图像扩散模型，经过训练可以增强和消除由3D表示的欠约束区域引起的渲染新视图中的伪像。Difix在我们的管道中扮演着两个关键角色。首先，在重建阶段使用它来清理从重建中渲染的伪训练视图，然后将其提取回3D。这极大地增强了欠约束区域，并提高了整体3D表达质量。更重要的是，Difix还在推理过程中充当神经增强器，有效地消除了不完善的3D监督和当前重建模型的有限容量所产生的残余伪影。Difix3D+是一个通用的解决方案，是一个与NeRF和3DGS表示都兼容的单一模型，它实现了平均2×在保持3D一致性的同时，提高了基线的FID分数。

2. 效果展示

我们展示了DiFIX3D+在野外场景(顶部)和驾驶场景(底部)上的表现。最近的新视图合成方法在稀疏输入设置或渲染远离输入相机姿态的视图时存在困难。DiFIX从2D生成模型的先验中提炼，以提高重建质量，并在推理时间进一步充当神经渲染器，以减轻剩余的不一致性。值得注意的是，相同的模型可以有效纠正NeRF和3DGS的伪影。

我们展示了在DL3DV数据集的保留场景中进行的比较。DiFiX3D+纠正了比其他方法多得多的伪影。

3. 主要贡献

我们做出了以下贡献：（i）我们展示了如何以最少的努力将二维扩散模型应用于去除由三维神经表示渲染所产生的伪影。微调过程在单张消费级显卡上仅需数小时。尽管训练时间较短，但同一模型已足够强大，可以去除来自隐式表示（如NeRF）和显式表示（如3DGS）的渲染图像中的伪影。（ii）我们提出了一种更新管道，通过反向提炼改进的新视图来逐步优化三维表示，从而确保多视图一致性和显著提高三维表示的质量。与在每次训练时间步长中查询扩散模型的当代方法[26, 72]相比，我们的方法速度提高了10倍以上。（iii）我们展示了单步扩散模型如何实现近乎实时的后处理，从而进一步提高新视图合成的质量。（iv）我们在不同数据集上评估了我们的方法，并获得了当前最佳（State-of-the-Art，SoTA）结果，平均峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）提高了1dB以上，弗雷谢特初始距离（Fréchet Inception Distance，FID）降低了2倍以上。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

4. 方法

给定一组RGB图像和相应的相机姿态，我们的目标是重建一个三维表示，该表示能够从任意视角合成逼真的新视图，尤其关注远离输入相机位置的欠约束区域。为实现这一目标，我们在以下过程中利用了预训练扩散模型的强大生成先验：（i）在优化过程中，通过迭代添加干净伪视图来扩充训练集，这些伪视图可改进远处和未观测区域的基础三维表示；（ii）在推理过程中作为实时后处理步骤，进一步减少因训练监督不足或不一致而产生的伪影。

我们首先描述了如何将预训练的扩散模型转换为图像到图像的转换模型，以去除神经渲染方法中存在的伪影，以及用于微调该模型的数据整理策略。然后，我们展示了如何使用微调后的扩散模型来提高三维表示的新视图合成质量。

5. 实验结果

6. 总结 & 未来工作

我们引入了DIFIX3D+，这是一种用于增强3D重建和新视图合成的新型管道。其核心是DIFIX，这是一种可以在现代NVIDIA GPU上以接近实时的速度运行的单步扩散模型。DIFIX通过渐进式3D更新方案提高3D表示质量，并在推理过程中实现实时去除伪影。它既与NeRF兼容，也与3DGS兼容，在保持3D一致性的同时，实现了比基线提高2倍的FID分数，展示了其在处理伪影和增强逼真渲染方面的有效性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。