🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
数源AI 最新论文解读系列

论文名:STABLE VIRTUAL CAMERA: Generative View Synthesis with Diffusion Models
论文链接:https://arxiv.org/pdf/2503.14489
开源代码:https://github.com/Stability-AI/stable-virtual-camera

导读
新颖视图合成(Novel View Synthesis,NVS)的目标是在给定任意数量带有相机位姿的输入视图的情况下,从任意相机视角生成场景的逼真、三维一致的图像。传统方法依赖于密集的输入视图,将NVS视为一个三维重建和渲染问题,但这种方法在输入稀疏时会失败。生成式视图合成通过利用现代深度网络先验解决了这一限制,无需为每个场景捕获大量图像集,就能在不受控的环境中实现沉浸式的三维交互。
简介
我们提出了稳定虚拟相机(STABLE VIRTUAL CAMERA,简称SEVA),这是一种通用的扩散模型,给定任意数量的输入视图和目标相机,它可以创建场景的新视图。现有方法在生成大视角变化或时间上平滑的样本时存在困难,并且依赖于特定的任务配置。我们的方法通过简单的模型设计、优化的训练方案和灵活的采样策略克服了这些限制,这些策略在测试时可以跨视图合成任务进行泛化。因此,我们的样本在不需要额外的基于表示的蒸馏的情况下保持了高度一致性,从而简化了实际场景中的视图合成。此外,我们表明我们的方法可以生成长达半分钟的高质量视频,并且具有无缝的循环闭合。大量的基准测试表明,SEVA在不同的数据集和设置下都优于现有方法。
方法与模型
我们将在3.1节中描述我们的模型设计和训练策略,然后在3.2节和3.3节中描述测试时的采样过程。图4提供了系统概述。
1. 模型设计与训练
我们考虑一个“进出”的多视图扩散模型,如2.2节中所标注的。我们将这个学习问题表述为一个标准的扩散过程[21],不做任何更改。
架构。我们的模型基于公开可用的Stable Diffusion 2.1 [25],它由一个自动编码器和一个潜在去噪U型网络(U-Net)组成。遵循文献[8]的方法,我们将U型网络中每个低分辨率残差块的二维自注意力机制扩展为三维自注意力机制[26]。为了提高模型的容量,我们通过跳跃连接[27, 28]在每个自注意力块之后沿视图轴添加一维自注意力机制,使模型参数从增加到。可选地,我们通过跳跃连接在每个残差块之后引入三维卷积,将该模型进一步转换为视频模型,类似于文献[22, 29],最终模型的总参数达到15亿。当已知一次前向传播中的帧在空间上有序时,可以在推理过程中启用时间路径,以增强输出的平滑度。

图4. 方法。SEVA以固定序列长度作为一个“进出”的多视图扩散模型进行训练,采用标准架构。它以CLIP嵌入、输入视图的变分自编码器(VAE)潜在表示以及它们对应的相机位姿作为条件。在采样过程中,SEVA可以被视为一个生成式的“进出”渲染器,可处理可变的序列长度,其中和不必等于和。为了增强生成视图之间的时间和三维一致

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



