4D高斯抛雪球模型问世:单视图视频也能快速生成动态3D对象

论文标题:
Fast Dynamic 3D Object Generation from a Single-view Video
论文作者:
Zijie Pan, Zeyu Yang, Xiatian Zhu, Li Zhang

**导读:**本文提出了一种新的4D图像生成框架,可以从单视图视频的简短视频中快速生成动态3D目标,且在保证高质量渲染的基础之上,将生成速度提升了10倍,该框架核心模块(本文贡献)分为跨视图和时间戳的图像合成及4D高斯抛雪球(Efficient4D)表示模型。©️【深蓝AI】编译

1. 方案提出

由于缺乏4D标注数据,从单视图视频中生成动态三维目标具有一定的挑战性。现有方案一般是采用转移现成的图像生成模型(例如:分数蒸馏采样 score distillation sampling)即扩展文本到3D的框架,但是这些图像生成模型需要反向传播信息中有限的监督信号,而这些信号通常来自于较大的预训练模型,这会导致现有的生成模型过于复杂且运行速度缓慢(例如:每个生成对象需要耗时150分钟)。为了解决这种方法的局限性,本文提出了一个更为高效的算法框架,该框架用于视频生成4D对象,称为Efficient4D。
图1 |Efficient4D效果图©️【深蓝AI】编译
图1 |Efficient4D效果图©️【深蓝AI】编译

该框架首先在不同的相机视图下生成具有时空一致性的高质量图像,然后将它们用作标记数据,以此直接训练具有显式表达形式的几何点云新模型——4D高斯抛雪球模型,最终能够实现在连续相机轨迹下进行实时渲染。本文提出的框架合成视频和真实视频数据集上进行了广泛的实验,实验结果表明:与SOTA方案相比,Efficient4D在速度反面提升了10倍(例如:只需要14分钟来模拟动态对象),同时在新试图合成质量方面与SOTA方案一致。

2. 技术要点

图2| Efficient4D整体框架©️【深蓝AI】编译
图2| Efficient4D整体框架©️【深蓝AI】编译

Efficient4D的输入为有限视角下描述动态对象的简短视频,输出为(在任意特定视图和时间点下)具有几何和时间一致性的对象。Efficient4D包含两个关键组件:跨视图和时间戳的图像合成、4D高斯表示模型及重建。

2.1 Image synthesis across views and timestamps(跨视图和时间戳的图像合成)

相对于难以获取校准好的4D标注信息,视频中的单视图更容易获取,其具体的获取方式为:生成一个M×N的图像矩阵D来表示具有几何和时间一致性的二维图像(如图2中c所示),其中M表示时间戳,N表示视图(其中时间变化的捕获由图像矩阵中的每一列表示,视图变化的捕获由图像矩阵中的每一行表示),通过该图像矩阵可以为后续的动态对象建模提供全面的信息。

· 图像矩阵D的初始化过程:

将来自输入图像的K帧设置为第一个视图(即第一列),然后继续生成剩余的视图。该任务包括从每行的单个图像生成多视图一致的图像,虽然可以使用现有的二维图像到3D的转换方法(如:SyncDreamer),但是这些方法通常在特定视图下(即列方向上的连续性)难以保证时间一致性,因此本文提出了增强版本的SyncDreamer[1]来提高时间连续性(SyncDream-T)。(具体公式推导需要结合参考文献进行学习,这里不作详细赘述)

· 时间同步性分析:

在图中对两个输入帧的空间特征体积在0到0.5的范围内改变融合比w,结果表明适当的比率w可以通过平衡时间一致性和运动独立性来实现更好的效果。
图3|时间同步性分析©️【深蓝AI】编译
图3|时间同步性分析©️【深蓝AI】编译

2.2 4D generation through reconstruction(4D表示下的生成与重建模型)

上一部分讨论的重点主要在离散图像上,而这一部分的目标是通过图像矩阵D对4D表示内容进行重建。4D高斯表示模型是在3D高斯抛雪球的基础之上改进而来,简单来说就是结合了时间维度使得模型可以在时间和空间上进行连贯的动态建模。

进行渲染时,每个高斯模型包含不透明度ααα和视角相关颜色系数ccc(由球谐函数进行表示),给定任意有内外参的视图III,可以通过混合高斯表示来渲染ttt时刻位置为(u,v)(u,v)uv处的像素:

L(u,v,t)=∑ifi(u,v,t)αici(d)TiL(u,v,t)=\sum_{i}f_i(u,v,t)\alpha_ic_i(d)T_iL(u,v,t)=ifi(u,v,t)αici(d)TiTi=∏j=1i−1(1−fj(u,v,t)αj)T_i=\prod\limits_{j=1}^{i-1}(1-f_j(u,v,t)\alpha_j)Ti=j=1i1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值