4D高斯抛雪球模型问世：单视图视频也能快速生成动态3D对象

最新推荐文章于 2025-10-07 08:58:35 发布

原创最新推荐文章于 2025-10-07 08:58:35 发布 · 1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #NeRF #三维重建 #3D生成

论文标题：
Fast Dynamic 3D Object Generation from a Single-view Video
论文作者：
Zijie Pan, Zeyu Yang, Xiatian Zhu, Li Zhang

**导读：**本文提出了一种新的4D图像生成框架，可以从单视图视频的简短视频中快速生成动态3D目标，且在保证高质量渲染的基础之上，将生成速度提升了10倍，该框架核心模块（本文贡献）分为跨视图和时间戳的图像合成及4D高斯抛雪球（Efficient4D）表示模型。©️【深蓝AI】编译

1. 方案提出

由于缺乏4D标注数据，从单视图视频中生成动态三维目标具有一定的挑战性。现有方案一般是采用转移现成的图像生成模型（例如：分数蒸馏采样 score distillation sampling）即扩展文本到3D的框架，但是这些图像生成模型需要反向传播信息中有限的监督信号，而这些信号通常来自于较大的预训练模型，这会导致现有的生成模型过于复杂且运行速度缓慢（例如：每个生成对象需要耗时150分钟）。为了解决这种方法的局限性，本文提出了一个更为高效的算法框架，该框架用于视频生成4D对象，称为Efficient4D。

图1 ｜Efficient4D效果图©️【深蓝AI】编译

该框架首先在不同的相机视图下生成具有时空一致性的高质量图像，然后将它们用作标记数据，以此直接训练具有显式表达形式的几何点云新模型——4D高斯抛雪球模型，最终能够实现在连续相机轨迹下进行实时渲染。本文提出的框架合成视频和真实视频数据集上进行了广泛的实验，实验结果表明：与SOTA方案相比，Efficient4D在速度反面提升了10倍（例如：只需要14分钟来模拟动态对象），同时在新试图合成质量方面与SOTA方案一致。

2. 技术要点

图2｜ Efficient4D整体框架©️【深蓝AI】编译

Efficient4D的输入为有限视角下描述动态对象的简短视频，输出为（在任意特定视图和时间点下）具有几何和时间一致性的对象。Efficient4D包含两个关键组件：跨视图和时间戳的图像合成、4D高斯表示模型及重建。

2.1 Image synthesis across views and timestamps（跨视图和时间戳的图像合成）

相对于难以获取校准好的4D标注信息，视频中的单视图更容易获取，其具体的获取方式为：生成一个M×N的图像矩阵D来表示具有几何和时间一致性的二维图像（如图2中c所示），其中M表示时间戳，N表示视图（其中时间变化的捕获由图像矩阵中的每一列表示，视图变化的捕获由图像矩阵中的每一行表示），通过该图像矩阵可以为后续的动态对象建模提供全面的信息。

· 图像矩阵D的初始化过程：

将来自输入图像的K帧设置为第一个视图（即第一列），然后继续生成剩余的视图。该任务包括从每行的单个图像生成多视图一致的图像，虽然可以使用现有的二维图像到3D的转换方法（如：SyncDreamer），但是这些方法通常在特定视图下（即列方向上的连续性）难以保证时间一致性，因此本文提出了增强版本的SyncDreamer[1]来提高时间连续性（SyncDream-T）。（具体公式推导需要结合参考文献进行学习，这里不作详细赘述）

· 时间同步性分析：

在图中对两个输入帧的空间特征体积在0到0.5的范围内改变融合比w，结果表明适当的比率w可以通过平衡时间一致性和运动独立性来实现更好的效果。

图3｜时间同步性分析©️【深蓝AI】编译

2.2 4D generation through reconstruction（4D表示下的生成与重建模型）

上一部分讨论的重点主要在离散图像上，而这一部分的目标是通过图像矩阵D对4D表示内容进行重建。4D高斯表示模型是在3D高斯抛雪球的基础之上改进而来，简单来说就是结合了时间维度使得模型可以在时间和空间上进行连贯的动态建模。

进行渲染时，每个高斯模型包含不透明度 $α$ 和视角相关颜色系数 $c$ （由球谐函数进行表示），给定任意有内外参的视图 $I$ ，可以通过混合高斯表示来渲染 $t$ 时刻位置为 $（ u ， v ）$ 处的像素：

$L(u,v,t)=∑ifi(u,v,t)αici(d)TiL(u,v,t)=\sum_{i}f_i(u,v,t)\alpha_ic_i(d)T_i$ $Ti=∏j=1i−1(1−fj(u,v,t)αj)T_i=\prod\limits_{j=1}^{i-1}(1-f_j(u,v,t)\alpha_j)$

$i$ 表示索引按深度排序的高斯表示， $d$ 表示视图 $I$ 下的像素方向， $f_i（u，v，t）$ 表示 $（ u ， v ）$ 处高斯模型影响，不同于直接将3D高斯模型投影到图像空间的3D高斯抛雪球法，本文将时间信息融合进 $f_i$ 中，具体表达方式为：
$f(u,v,t)=Gt(t∣μt,Σt)GP(x)∣t(u,v∣P(μx∣t),P(Σx∣t))f(u,v,t)=G_t(t|\mu_t,\Sigma_t)G_{P(x)|t}(u,v|P(\mu_{x|t}),P(\Sigma_{x|t}))$ 【左右滑动查看完整公式】

其中 $G_t$ 是4D高斯在时间上的边际分布， $G_P(x)|t$ 表示3D高斯投影的条件分布：
$μx∣t=μx+Σx,tΣt−1(t−μt)\mu_{x|t}=\mu_x+\Sigma_{x,t}\Sigma^{-1}_t(t-\mu_t)$ $Σx∣t=Σx−Σx,tΣt−1Σt,x\Sigma_{x|t}=\Sigma_x-\Sigma_{x,t}\Sigma^{-1}_t\Sigma_{t,x}$

其中投影表达 $P$ 是将是三维空间点投影到图像空间，（ $W$ 是 $I$ 的外参矩阵， $J$ 是仿射变换近似的雅可比矩阵）：
$P(Σx∣t)=JWΣx∣tWTJTP(\Sigma_{x|t})=JW\Sigma_{x|t}W^TJ^T$

在模型训练期间，对均值、协方差、不透明度和球谐系数进行优化，原始目标函数（3DGS）可能会不适用于存在缺陷的合成数据，因此本文引入了一个置信度感知目标损失函数：
$L=λrgbCrgbLrgb+λssimCssimLssimL=\lambda_{rgb}C_{rgb}L_{rgb}+\lambda_{ssim}C_{ssim}L_{ssim}$

其中 $L r g b$ 表示RGB空间的 $L_1$ 损失， $L ss im$ 表示SSIM损失； $λrgb、ssim\lambda rgb、ssim$ 为各自的权重（超参数)； $C r g b 、 ss im$ 表示生成图像I的置信度得分计算：
$Crgb=1−∣I−I^∣,Cssim=SSIM(I−I^)C_{rgb}=1-|I- \widehat{I}|,C_{ssim}=SSIM(I-\widehat{I})$ 【左右滑动查看完整公式】

3. 实验结果

本文设计的实验共分为定性分析、定量分析、稀疏输入实验分析和消融研究四部分：

3.1 Qualitative evaluation（定性分析）：

在几何渲染方面，选取了高斯均值处的点，同时对白色背景点和低不透明度的点进行了剔除，从纹理质量的角度对比分析（该两种方法都是将2D提升到4D）来看，Consistent4D生成的图像保真度较低，这可能是在长时间的优化过程中的多个监督信号发生冲突造成的，而Efficient4D更擅长于直接生成高质量的2D图像，同时在重建过程中可以生成明确的点云，渲染效果较Consistent4D下降较小，总体而言，Efficient4D的表现在大多数情况下都要优于Consistent4D。

图4｜Efficient4D定性评估（与Consistent4D比较）©️【深蓝AI】编译

3.2 Quantitative evaluation（定量分析）：

评价指标分别为图像序列和渲染图像的平均生成时间、渲染时间和CLIP相似度分数，其中Consistent4D的CLIP相似度评估仅限于其论文和项目页面中2到3个选定视图的RGB图像，而本文的评估方法包含在空间和时间上均匀分布的320个图像（16个视点和20个时间戳）

表1｜Efficient4D定量分析（与Consistent4D比较）©️【深蓝AI】编译

3.3 Sparse input evaluation（稀疏输入实验分析）：

仅包含了两个离散帧的情况下对Efficient4D的性能进行评估，首先，Consistent4D在这种情况下无法有效运行，而Efficient4D则生成了具有平滑运动和高度时空一致的图像。如图中的玩具士兵，当需要给静态玩具士兵进行4D建模的时候，尽管玩具可以进行不同程度的移动，但是它此时并不具有自主运动的能力，Efficient4D只需要几个关键帧即可以生成产生动态内容。

图5｜输入仅为两帧图像的生成实验©️【深蓝AI】编译

3.4 Ablation studies（消融研究）：

本文涉及的消融实验框架为（将完整框架与共五种参考模型进行了对比实验）：

（1）仅使用输入视频进行重建

（2）消除时间同步的空间体素后的基本框架

（3）消除帧间插值后的框架

（4）消除置信度图后的框架

（5）将4D高斯抛雪球模型替换为K-Plane

与上述消融实验对应的结果分析如下（按序号一一对应）：

（1）合成数据集的重要性：如图5中第一行所示，当仅靠单视图视频时，模型无法为新视图的生成产生任何有意义的结果，这可以反映出构建适当训练数据的重要性。

（2）时间同步的空间体素的影响：如图5中的第二行和第四行的对比所示，在没有时间同步的空间体素的情况下，玩具蜘蛛侠背面视角表现出不一致性，这就导致了图像失真的问题，而在加入了时间同步的空间体素时则会减少几何失真的现象从而生成更为正确的图像。

（３）帧间插值的影响：如图5中第三行和第四行的对比所示，帧间插值可以有效地减轻新视图渲染图像中出现的模糊（图像矩阵的低帧率会导致生成图像明显的不连续性问题）

（４）目标置信度感知的影响：置信度感知可以有效减轻训练数据噪声的影响，在图中第三行和第四行对比可以看出，包含置信度图后可以有效降低帧间不一致引起的渲染模糊，从而提高了渲染质量。

（５）现有4D表示模型与Efficient4D对比：两者在动态场景重建方面均表现出优越性能，但Efficient4D在速度方面有10倍提升，同时可以进行显式点云实时渲染。

4. 结论

本文提出了一种新的框架Efficient4D，利用了SDS-free（未使用分数蒸馏采样）的设计和高效的4D表示方式，在显著加快了生成过程（10倍的速度提升）的同时，也保证了高质量的新视图合成和重建。此外，Efficient4D在极其稀疏的输入场景中依然是有效的（两帧可使用的图像），也充分展现了该框架具有更为广阔的应用范围。

当然，本文在研究过程中也发现了一些局限性（未来研究工作可以从这些方面进行展开）：