1.8秒完成90帧视频重建，相比加速1000 倍!颜水成团队提出NutWorld:渲染速度可达450FPS-优快云博客

本文链接：https://blog.youkuaiyun.com/AIGCer/article/details/145525176

论文链接：https://arxiv.org/pdf/2502.03465
git链接：https://github.com/Nut-World/NutWorld

亮点直击

首次提出了一个框架，可以通过单次前向传播，将随意拍摄的单目视频中的世界动态高效表示为动态Gaussian Splatting（Dynamic Gaussian Splatting）。

NutWorld 框架结合了 STAG 表示、精心设计的前向重建网络，以及用于从随意视频中实现空间和时间一致性恢复的有效正则化策略。

在视频重建和多种下游任务上的大量实验，验证了 NutWorld 在时空一致性和多功能性方面的表现。

总结速览

解决的问题

现有方法在表示随意拍摄的单目视频时，因缺乏时间一致性和显式3D结构，难以处理复杂运动、遮挡和几何一致性。如何高效地以空间和时间一致的方式表示单目视频，成为亟待解决的问题。

提出的方案

提出了 NutWorld 框架，通过单次前向传播，将单目视频动态高效地表示为动态3D Gaussian Splatting（Dynamic Gaussian Splatting）。核心方案包括：

STAG（空间-时间对齐高斯）表示：无需优化即可建模场景，提供高效的动态表示。
深度与流正则化策略：增强空间和时间一致性。
精心设计的前向重建网络：提升重建效率和质量。

应用的技术

时空连续的高斯原语流表示：以3D形式表示单目视频，解决时间一致性问题。
STAG 表示：引入结构化的空间-时间对齐表示，提升建模效率。
正则化策略：通过深度和流正则化，增强几何一致性和动态场景的建模能力。
单次前向传播：实现高效的视频到动态3D表示的转换。

达到的效果

高保真视频重建：在视频重建质量上表现卓越，解决复杂运动和遮挡问题。
时空一致性：在空间和时间一致性方面显著优于现有方法。
多功能性支持：支持多种实时下游应用，展现出强大的适应能力和实用性。

方法

本文提出了一个框架，用于以前向传播的方式高效地从单目视频中表示世界动态。如下图3所示，首先介绍了时空对齐Gaussian Splatting（STAG） 表示。为了能够通过单次前向传播将视频映射到STAG，详细说明了基于Transformer的网络，该网络结合了校准的深度和光流先验。最后，讨论了处理长视频片段的整体训练目标和协议。

时空对齐高斯

规范化相机空间 给定一个未经配准的单目视频，采用正交相机坐标系统，而不是绝对的3D世界坐标系统。这一选择主要基于两个关键挑战：

在动态场景中获得一致的相机轨迹的困难；
前向3D重建模型中固有的尺度歧义问题，其中透视投影将物体的尺度与其距离相机的远近耦合在一起。

通过采用沿z轴固定姿态的正交投影，消除了显式相机姿态估计的必要性，同时在统一的规范化空间中无尺度歧义地建模相机和物体的运动。

结构化动态高斯 为了克服动态高斯喷射中不结构化的特性，并促进神经网络的集成，在规范化相机空间中引入了时空对齐Gaussian Splatting（STAG）。与之前通过可变形场在正交时空中预测无约束高斯的方法不同，STAG将每个动态高斯约束到特定的像素位置和时间戳。

对于一个输入帧，其归一化时间戳为，计算一个高斯特征图，其中和表示空间维度，表示通道维度。每个维像素被解码为一个3D高斯及其相关的形变场，以像素对齐的方式进行。

对于特征图中坐标为的像素，我们通过沿相应射线的反投影定义其对应的3D高斯中心：。其中，和是从解码出的有界偏移量，用于保持像素级对应关系并进行局部位置的精细调整。深度值指定了沿相机视轴的z坐标。

为了建模时间动态，对于时间戳下的帧渲染，通过预测的形变场在帧渲染时对每个静态高斯中心进行形变：

其中，是一个时间切片指示函数，定义为：

如下图 2 所示，时间切片函数根据渲染时间戳和高斯参考时间戳之间的时间关系调制形变场。当时，形变被抑制（），保留原始高斯位置以维持空间对齐。当时，形变场被激活以调整，从而使高斯中心能够适应时间差异。

在“Nutshell”中封装动态

本节介绍 NutWorld 中基于 Transformer 的模型，用于将未对齐的单目视频转换为所提出的 STAG 表示。形式化地，给定一个包含帧视频的输入序列，其中每帧与一个归一化时间戳相关联，将 NutWorld 定义为一个逆映射函数：

该映射生成了一组 STAGs ，通过对形变场的时间插值，可以将其渲染为任意帧（）。

基于 Transformer 的编码器 对于每个输入帧，我们通过将像素的 RGB 值与对应的深度坐标沿通道维度拼接来增强像素信息，深度坐标由一个预训练的深度估计模型提供。增强后的帧首先通过卷积被分割成大小为的非重叠块，这些块随后被线性变换并在所有帧之间拼接，生成 Transformer 的输入 token。本文的架构不需要像 ViT那样显式使用位置嵌入，因为深度坐标本身就隐式编码了空间信息。

Transformer 块由自注意力和 MLP 层组成，这些块处理拼接后的 token，以捕获时空对应关系，并生成编码特征，其中和表示空间分辨率，表示特征维度。

为了确保对随意视频生成足够的 STAGs，利用了一个分层上采样网络，它逐步扩展编码特征的空间分辨率。每个上采样块首先通过线性层将特征维度扩展 4 倍，然后通过 PixelShuffle 层将空间分辨率扩大 2 倍。结果特征随后由一个窗口大小为的局部注意力层处理，该层在计算效率与时空特征聚合之间实现了平衡：

经过级联这样的块次后，最终的特征图达到了空间分辨率。

STAG 解码器 所提出的解码器从上采样的特征图中预测静态高斯属性及其可变形场。对于静态 3D 高斯的解码，我们使用一个共享的 MLP（多层感知机），并通过专门的子头来预测每个高斯属性：中心位置、不透明度、尺度、旋转和颜色（RGB 值）。鉴于我们固定的标准相机设置，在颜色预测中省略了视角相关的效果。每个属性均使用特定的激活函数，遵循既定的实践 [8]。

为了将变形场建模为时间的连续函数，使用正弦位置编码对时间戳进行编码，随后通过一个可学习的线性投影。编码后的时间特征接着通过一个 MLP 处理，从而实现可微分的时间插值：

其中，表示具有可学习参数的 MLP。对输出应用激活函数，将变形约束在的范围内。函数表示阶数为的正弦展开，这增强了网络捕获高频分量的能力。

校准的 2D 先验正则化

仅从单目视频中学习具有空间感知能力的 STAG 是一种本质上不适定的问题，因为存在深度模糊和运动不确定性。因此，利用现成的基础模型分别通过校准的深度和光流先验来恢复空间关系和时间运动。在正交投影下，STAG 沿坐标的运动直接对应于光流的大小，而深度相关的损失则仅影响坐标，从而进一步促进这些 2D 先验的引入。

深度正则化 为了增强深度渲染对尺度和偏移变化的鲁棒性，采用了一种尺度和偏移不变的损失函数。该损失函数计算最佳的缩放因子和偏移因子，以对齐渲染深度和由深度先验模型估计的伪深度。通过最小化缩放后的渲染深度与伪深度之间的平方误差，可以获得和的最优值，公式如下：

这里，是一个离群值mask，其中表示深度图中前 10% 的值，表示其他值，从而减轻了估计伪深度中的噪声。这种深度监督有效地对训练过程进行了正则化，使其在预测场景中的相对深度时更加鲁棒。

光流正则化 通过利用帧间的光流关联提取全局 STAG 轨迹。与仅在相邻帧之间采用迭代优化的传统方法不同，我们的前向传播框架利用全局轨迹监督，在单次前向传播中确保运动的一致性。

对于每个 STAG，定义其在个视频帧上的估计伪轨迹。该轨迹通过对预先计算的相邻帧光流场的连续查询获得，表示为一个全局光流矩阵：

全局光流矩阵被构造成一个的矩阵，其中每个条目被表示为一个长度为的向量，代表从帧到帧的每个高斯的二维累积运动。该矩阵结构是非对称的：上三角条目编码累积的反向光流，而下三角条目包含累积的正向光流。这里，表示第个高斯在帧中的投影二维坐标。为了符号的简洁性，我们省略了矩阵条目中的显式光流查询操作。

利用全局光流矩阵，我们通过将其二维投影与跨帧估计的全局轨迹进行比较，来对形变场进行正则化。

其中，表示范数。还应用了一种离群值过滤策略来校准光流先验。该光流损失强制预测轨迹与从光流推导的参考路径保持一致，从而使 NutWorld 能够从随意拍摄的视频中学习连贯的运动模式。

训练和推理

总体目标 在训练阶段，从个稀疏采样的帧中渲染 RGB 帧，并插值生成个中间帧以实现密集的时间监督。我们的训练目标包含三个部分：

其中，是渲染的 RGB 帧与真实帧之间的均方误差损失，和分别表示校准后的正则化项。系数和用于平衡各项的贡献。

基于分段的长视频推理 为了处理包含数百帧的随意拍摄视频，在推理阶段提出了一种简单但有效的基于分段的策略。输入视频被划分为重叠的片段，相邻片段共享一个帧。由于我们基于像素级的时空表示，高斯轨迹可以通过这些共享帧在片段之间无缝传播，从而使 NutWorld 能够在保持时空一致性的同时处理任意长度的视频。

实验

实验设置

训练数据集 NutWorld 在 MiraData 和 RealEstate10K 数据集上进行了预训练。MiraData 是一个高质量的视频数据集，主要由3D引擎生成的场景和电影片段组成，具有多样的运动模式。RealEstate10K 数据集包含室内房屋导览视频，展示了各种建筑场景和相机运动模式。

在预处理过程中，将原始视频分割成视频块，每个视频块包含10帧连续帧，作为基本处理单元。

实现细节 NutWorld 在 32 张 NVIDIA A100 (80GB) GPU 上进行训练，批量大小为 256，训练时间约为 4 天。为了提高计算效率，集成了 Flash-Attention-v2、梯度检查点和 BF16的混合精度训练。

正交相机坐标在和轴上被限制在范围内，而在轴上被限制在范围内。输入帧被调整为的分辨率，以保持宽高比。我们采用了两阶段的训练策略：首先是静态阶段，使用单帧（），窗口大小为；然后是动态阶段，从静态权重初始化并将窗口扩展到，以允许分层上采样器中的时空注意力。

视频重建

实验协议 在 RealEstate10K 和 MiraData 数据集上随机选择了 50 个测试视频片段（默认长度为 90 帧），通过标准重建质量指标（PSNR、SSIM 和 LPIPS）评估 NutWorld 的视频重建性能。由于目前没有其他基于动态高斯的前馈方法，我们与基于优化的方法进行了比较，包括 Splatter-a-Video (SaV)、4DGS、RoDynRF 和 CoDeF，这些方法是最相关的基线。为了公平比较，所有方法都结合了受限的标准空间、深度和光流监督。对于大多数方法，我们使用了官方实现，而 SaV 是根据其论文中提供的实现细节重新实现的。

与基线方法的比较 通过定性和定量实验评估了 NutWorld 表示的有效性。在下图4中可以看出，预训练的 NutWorld 能够有效捕获空间细节和时间动态，在重建质量上优于基于高斯的 SaV和基于 NeRF 的 CoDeF。这种优越性能归因于 STAG 精心设计的可变形场和位置约束，与 SaV 的傅里叶级数和 CoDeF 的二维标准表示相比，提供了更具表现力和更鲁棒的时间建模能力。

如下表1所示，NutWorld 在重建质量和计算效率方面实现了两者的最佳平衡。值得注意的是，NutWorld 在仅 1.8 秒内就完成了 90 帧视频的重建，相比基于优化的方法实现了 1000 倍的加速。通过基于分段的推理策略限制每段的高斯数量，NutWorld 达到了 450 FPS 的渲染速度，显著超过了 SaV 的 149 FPS，而后者需要大约个高斯来处理同一视频。

视频下游任务

经过大规模预训练的 NutWorld 支持多种视频应用，包括目标分割、帧插值、视频编辑、新视角合成以及一致性的深度预测。在下图5中展示了具有代表性的定性结果。

视频目标分割 STAG 的显式特性使我们能够将某帧中的目标mask传播到后续帧。具体来说，可以在第一帧中显式选择目标mask对应的 STAG，如之前的无训练高斯分割方法所示。由于 NutWorld 能够预测每个高斯随时间变化的一致性变形，后续帧的目标mask可以从最初选择的 STAG 渲染出来。尤其是，这种能力作为副产品出现，无需特定任务的训练。

帧插值 通过校准光流正则化学习到的 STAG 连续轨迹，NutWorld 能够以任意 FPS 插值场景动态。这些插值后的 STAG 具有平滑变化的动态属性，能够支持中间帧的渲染，这种能力超出了逐帧方法的范围。

一致性深度预测 校准的深度正则化防止了深度坍缩，同时在场景几何中保持了时间一致的空间配置。此外，NutWorld 展示了蒸馏其他图像特征（如 SAM 和 CLIP）的潜力，我们认为这是未来工作的一个有前途的方向。

视频编辑 通过与 MLLM 指导的编辑模型集成，NutWorld 能够通过优化切片的 STAG 表示，实现精确的逐帧绘画和风格化。这些编辑在时间上可以传播，同时保持视频序列的视觉一致性。

新视角合成 通过结合深度先验以减轻空间歧义，NutWorld 在实际范围内实现了新视角合成。相机外参调整支持新视角渲染，而相机内参调整则允许实现如推拉变焦（dolly zoom）等效果。

消融研究

通过对50个选定的视频片段进行消融研究，分析了NutWorld的设计选择。如下表2所示，实验表明，从多组件流水线中移除任何一个组件都会导致显著的性能下降。

关于STAG表示的消融实验 为了验证STAG表示的有效性，通过放松其位置约束进行消融实验。参考[64]，实现了一个约束更少的变体，其中高斯位置仅通过激活函数进行预测，其范围限制在。如上表2所示，这种放宽约束的方法导致性能显著下降，PSNR降低了10dB，同时伴随着收敛速度变慢、模糊伪影和不稳定的优化行为。这些结果表明结构化位置约束的必要性，因为不受约束的高斯在alpha合成过程中引入了额外的空间模糊性。相比之下，STAG的局部化位置约束提供了明确的空间和时间对应关系，从而实现了高效优化和高质量渲染。

关于深度先验的消融实验 为了评估深度先验（公式6），训练了一个不包含深度监督的NutWorld变体（如下图6(a)所示）用于对比。实验表明，没有深度先验的变体倾向于丢失空间排列性，并收敛到一种坍缩的捷径，即所有STAG都被投射到单一的平面上。上表2中的定量实验显示，移除深度先验会导致渲染质量下降，PSNR从29.18dB降至28.15dB。这些结果强调了深度先验在解决NutWorld中的空间模糊性问题上的必要性。

关于流先验的消融实验。 为了评估流先验（Eq. 8），训练了一个没有流监督的NutWorld变体进行对比。通过小提琴图（如下图 6(b)）可视化了跨越帧的形变场的分布。在没有流监督的情况下，模型表现出较大的形变值且方差较低，导致STAGs在非参考帧中偏离了Eq. 2中定义的标准空间。这表明，没有流监督的变体倾向于通过将每一帧表示为独立的STAGs来学习一种不理想的捷径，进而导致时间不连续性。相比之下，在有流监督的情况下，形变场的分布集中在接近零的位置，且具有适当的方差，这表明NutWorld能够通过流先验恢复时间运动，从而有效地防止这种捷径行为。此外，上表2中的定量实验表明，时间不连续性会导致重建质量下降，尤其是在处理复杂运动时表现尤为明显。

结论

本文提出了NutWorld，这是一种通过动态高斯投影高效表示随意单目视频的新框架。通过引入结构化的STAG表示并结合有效的深度和光流正则化，本文的方法成功解决了单目视频表示中的多个基本挑战，在无需逐场景优化的情况下实现了空间和时间的一致性。全面的实验表明，NutWorld不仅能够实时实现高保真的视频重建，还支持多种下游应用。在未来，将丰富的视觉特征（例如，SAM、CLIP）蒸馏到STAG表示中，以及将表示范式适配于视频生成任务，都是值得探索的方向。