CVPR'25 | NVIDIA新作Difix3D+:单步扩散改进NeRF和3DGS重建!

作者 | 3DCV

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

0. 论文信息

标题:Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

作者:Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling

机构:NVIDIA、National University of Singapore、University of Toronto、Vector Institute

原文链接:https://arxiv.org/abs/2503.01774

代码链接:https://research.nvidia.com/labs/toronto-ai/difix3d

1. 导读

神经辐射场和三维高斯分布已经彻底改变了三维重建和新视图合成任务。然而,从极端新颖的角度实现照片级真实感渲染仍然具有挑战性,因为伪像会在表示中持续存在。在这项工作中,我们介绍了Difix3D+,这是一种新的管道,旨在通过单步扩散模型增强3D重建和新视图合成。我们的方法的核心是Difix,这是一种单步图像扩散模型,经过训练可以增强和消除由3D表示的欠约束区域引起的渲染新视图中的伪像。Difix在我们的管道中扮演着两个关键角色。首先,在重建阶段使用它来清理从重建中渲染的伪训练视图,然后将其提取回3D。这极大地增强了欠约束区域,并提高了整体3D表达质量。更重要的是,Difix还在推理过程中充当神经增强器,有效地消除了不完善的3D监督和当前重建模型的有限容量所产生的残余伪影。Difix3D+是一个通用的解决方案,是一个与NeRF和3DGS表示都兼容的单一模型,它实现了平均2×在保持3D一致性的同时,提高了基线的FID分数。

2. 效果展示

我们展示了DiFIX3D+在野外场景(顶部)和驾驶场景(底部)上的表现。最近的新视图合成方法在稀疏输入设置或渲染远离输入相机姿态的视图时存在困难。DiFIX从2D生成模型的先验中提炼,以提高重建质量,并在推理时间进一步充当神经渲染器,以减轻剩余的不一致性。值得注意的是,相同的模型可以有效纠正NeRF和3DGS的伪影。

图片

我们展示了在DL3DV数据集的保留场景中进行的比较。DiFiX3D+纠正了比其他方法多得多的伪影。

图片

3. 主要贡献

我们做出了以下贡献:(i)我们展示了如何以最少的努力将二维扩散模型应用于去除由三维神经表示渲染所产生的伪影。微调过程在单张消费级显卡上仅需数小时。尽管训练时间较短,但同一模型已足够强大,可以去除来自隐式表示(如NeRF)和显式表示(如3DGS)的渲染图像中的伪影。(ii)我们提出了一种更新管道,通过反向提炼改进的新视图来逐步优化三维表示,从而确保多视图一致性和显著提高三维表示的质量。与在每次训练时间步长中查询扩散模型的当代方法[26, 72]相比,我们的方法速度提高了10倍以上。(iii)我们展示了单步扩散模型如何实现近乎实时的后处理,从而进一步提高新视图合成的质量。(iv)我们在不同数据集上评估了我们的方法,并获得了当前最佳(State-of-the-Art,SoTA)结果,平均峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)提高了1dB以上,弗雷谢特初始距离(Fréchet Inception Distance,FID)降低了2倍以上。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图

4. 方法

给定一组RGB图像和相应的相机姿态,我们的目标是重建一个三维表示,该表示能够从任意视角合成逼真的新视图,尤其关注远离输入相机位置的欠约束区域。为实现这一目标,我们在以下过程中利用了预训练扩散模型的强大生成先验:(i)在优化过程中,通过迭代添加干净伪视图来扩充训练集,这些伪视图可改进远处和未观测区域的基础三维表示;(ii)在推理过程中作为实时后处理步骤,进一步减少因训练监督不足或不一致而产生的伪影。

图片

我们首先描述了如何将预训练的扩散模型转换为图像到图像的转换模型,以去除神经渲染方法中存在的伪影,以及用于微调该模型的数据整理策略。然后,我们展示了如何使用微调后的扩散模型来提高三维表示的新视图合成质量。

图片

5. 实验结果

图片 图片

6. 总结 & 未来工作

我们引入了DIFIX3D+,这是一种用于增强3D重建和新视图合成的新型管道。其核心是DIFIX,这是一种可以在现代NVIDIA GPU上以接近实时的速度运行的单步扩散模型。DIFIX通过渐进式3D更新方案提高3D表示质量,并在推理过程中实现实时去除伪影。它既与NeRF兼容,也与3DGS兼容,在保持3D一致性的同时,实现了比基线提高2倍的FID分数,展示了其在处理伪影和增强逼真渲染方面的有效性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

de7cb98bafee0feaef16c9d20d956a33.jpeg

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。

4c627f491924460a69655b5bb3aaf4f7.jpeg

### 实现 3D Gaussian Splatting 的准备工作 为了在 Ubuntu 上成功实现 3D Gaussian Splatting (3DGS),需要确保操作系统环境已经准备好并安装必要的依赖项。对于 Ubuntu 22.04 版本,建议按照以下指南操作。 #### 安装基础软件包 首先更新系统的软件源列表,并安装一些基本工具库: ```bash sudo apt-get update && sudo apt-get upgrade -y sudo apt-get install build-essential cmake git wget unzip pkg-config libopencv-dev python3-pip -y ``` #### 设置 Python PyTorch 环境 由于 3D Gaussian Splatting 需要使用到 PyTorch 进行模型训练与推理,因此需先确认 CUDA 版本再选择合适的 PyTorch 版本来安装[^1]。可以通过命令 `nvcc --version` 来查看当前 GPU 所支持的 CUDA 版本号。接着通过 pip 工具来安装对应版本的 PyTorch 及其扩展组件 torchvision: ```bash pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117 ``` 这里假设使用的 CUDA 是 11.7 版本;如果不是,则应调整 URL 中 cu 后面的部分以匹配实际的 CUDA 版本。 #### 获取项目代码 从 GitHub 下载官方提供的 3D Gaussian Splatting 源码仓库: ```bash git clone https://github.com/graphdeco-inria/gaussian-splatting.git cd gaussian-splatting ``` #### 编译 C++ 组件 进入克隆下来的目录后,编译所需的 C++ 插件模块: ```bash mkdir build && cd build cmake .. make -j$(nproc) ``` 这一步骤会生成执行文件其他必需的支持文件。 #### 准备数据集 如果打算测试自采集的数据集,在此之前还需要做额外的工作来处理这些原始图像序列或者点云数据,使其能够被算法所接受。具体方法可以参见相关文档说明[^3]。 #### 测试运行 最后,尝试启动示例程序验证整个流程是否正常工作: ```bash python3 main.py --config configs/example.yaml ``` 以上就是在 Ubuntu 平台上部署 3D Gaussian Splatting 技术的大致过程概述。需要注意的是,不同硬件配置可能会遇到不同的兼容性性能优化问题,所以在实践中可能还需进一步调试参数设置。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值