谷歌&伯克利新突破:单视频重建4D动态场景,轨迹追踪精度提升73%!

作者 | 龙睛焕像师  编辑 | 龙哥读论文

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

龙哥导读:
这项研究将3D高斯撒点技术与SE(3)运动表示相结合,解决了单目视频动态场景重建的长期难题,在3D追踪精度上比现有方法提升73%!不仅学术价值高,在AR/VR、自动驾驶等领域也有巨大应用潜力。

想象一下,用手机随便拍一段视频,就能自动重建出整个动态场景的3D模型,还能追踪每个物体的运动轨迹?这听起来像是科幻电影里的情节,但UC Berkeley和Google Research的研究团队刚刚把这个梦想变成了现实!

论文中的方法可以重建动态场景并渲染出不同时间点的视图:

这项名为"Shape of Motion"的技术,能从单目视频中重建出完整的4D场景(3D空间+时间维度)。最神奇的是,它不仅能看到物体的运动轨迹,还能从任意视角渲染出动态场景!

系统整体架构图展示了方法的创新之处:

这项技术到底有多厉害?它能同时做到:1) 实时新视角合成;2) 全局一致的3D追踪;3) 处理复杂的动态场景。这可能会彻底改变影视特效、游戏开发、自动驾驶等多个行业的工作流程!


原论文信息如下:

论文标题:
Shape of Motion: 4D Reconstruction from a Single Video
发表日期:
2024年07月
作者:
Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
发表单位:
UC Berkeley, Google Research
原文链接:
https://arxiv.org/pdf/2407.13764.pdf
项目链接:
shape-of-motion.github.io

引言:单目视频的动态场景重建有多难?

想象一下,用手机随便拍一段视频,就能自动重建出整个动态场景的3D模型,还能追踪每个物体的运动轨迹?这听起来像是科幻电影里的情节,但UC Berkeley和Google Research的研究团队刚刚把这个梦想变成了现实!

传统的动态场景重建方法要么依赖多视角视频,要么需要深度传感器,要么只能在准静态场景下工作。而单目视频的动态场景重建,就像是在黑暗中用一只手摸大象——信息极度匮乏,问题高度病态。

SE(3)(Special Euclidean group in 3D space,三维特殊欧几里得群)是描述3D空间中刚体运动的数学表示,包括旋转和平移。而本文提出的方法巧妙地利用了SE(3)运动基底来表示场景运动。

核心贡献:Shape of Motion——4D重建新方法

这项名为"Shape of Motion"的技术,能从单目视频中重建出完整的4D场景(3D空间+时间维度)。最神奇的是,它不仅能看到物体的运动轨迹,还能从任意视角渲染出动态场景!

本方法的两大核心创新点:

1. 低维运动表示:利用一组紧凑的SE(3)运动基底来表示场景运动,每个点的运动都是这些基底的线性组合

2. 数据驱动先验整合:有效整合单目深度图和长距离2D轨迹等噪声监督信号,形成全局一致的动态场景表示

技术解析:3D高斯点与运动基底的秘密

本方法采用3D高斯点(3D Gaussians)作为场景表示的基本单元。与传统的NeRF等隐式表示不同,3D高斯点是显式的、可微的场景表示,能够实现实时渲染。

每个3D高斯点在规范帧t₀中的参数定义为g₀≡(μ₀,R₀,s,o,c),其中:

μ₀:规范帧中的3D均值

R₀:规范帧中的方向

s:尺度

o:不透明度

c:颜色

这些3D高斯点会随时间进行刚体变换,其运动轨迹通过一组共享的SE(3)运动基底来表示。这种表示方法既保持了灵活性,又通过共享基底实现了运动规律的低维约束。

动态场景表示的秘密武器

为了克服单目视频重建的欠约束问题,本方法巧妙地利用了多种数据驱动先验:

单目深度估计:使用现成的Depth Anything模型获取每帧的深度图

长距离2D轨迹:使用TAPIR模型获取前景像素的长距离2D轨迹

运动物体分割:使用Track-Anything获取每帧的运动物体掩码

这些先验信息虽然各自都有噪声,但通过精心设计的优化框架,能够被整合成一个全局一致的动态场景表示。这就像是用多个不准确的指南针,最终找到正确的北方!

优化过程全解析

优化过程就像拼装精密机械表⚙️——每个零件都要完美契合!方法首先获取三种关键输入:

运动物体掩码:用Track-Anything标注移动区域(只需用户点几下)

单目深度图:Depth Anything提供每帧深度线索

2D轨迹:TAPIR生成像素级长距离运动轨迹

初始化阶段选择包含最多3D轨迹的帧作为规范帧,动态高斯的运动基底通过加权Procrustes对齐算法初始化:

图:运动基底参数化公式,其中𝐓表示SE(3)变换,𝐰为权重系数

训练时采用双管齐下的损失函数:

重建损失:确保每帧渲染与输入一致

图:重建损失函数,包含RGB、深度和掩码约束

运动约束:通过2D轨迹和刚性损失保持运动一致性

图:刚性损失确保局部结构在运动中保持稳定

硬件配置上,在A100 GPU上训练300帧视频仅需2小时,渲染速度可达40fps——实时性完胜传统NeRF方法!

实验结果:效果有多强?

在iPhone数据集上的结果堪称降维打击🚀!看这组对比数据:

*表格超出部分左右可以滑动

Method

3D EPE↓

05↑D↑

10↑D↑

AJ↑

avg↑OA↑

PSNR↑

SSIM↑

T-NeRF [21]

-

-

-

-

-

15.60

0.55

HyperNeRF [65]

0.182

28.4

45.8

10.1

19.3

15.99

0.51

DynIBaR [52]

0.252

11.4

24.6

5.4

8.7

13.41

0.48

Deformable-3D-GS [108]

0.151

33.4

55.3

14.0

20.9

11.92

0.49

CoTracker+DA

0.202

34.3

57.9

24.1

33.9

-

-

TAPIR+DA

0.114

38.1

63.2

27.8

41.5

-

-

Ours0.08243.073.334.447.016.720.63

表1:iPhone数据集量化对比,本方法在3D追踪、2D追踪和新视角合成全面领先

73.3%的3D追踪准确率(10cm阈值)比第二名高出整整10个百分点,47%的2D追踪准确率更是碾压级表现!新视角合成的PSNR指标达到16.72,清晰度肉眼可见提升👇

图4:新视角合成效果对比(左:训练视角,绿框为不可见区域)

运动轨迹可视化更展现惊人优势——传统方法在旋转风车场景完全崩坏,而本方法轨迹平滑精准:

图3:3D运动轨迹对比(仅展示50帧片段)

在Kubric合成数据集上,3D追踪误差(EPE)低至0.16,比基线方法提升21%!运动系数PCA可视化直接暴露算法黑箱——不同颜色对应不同刚体运动组件:

图6:运动系数的前三PCA分量(不同颜色代表不同刚体组件)

消融实验实锤关键技术价值:

*表格超出部分左右可以滑动

Ablation

EPE↓

05↑D↑

10↑D↑

Full Model

0.082

43.0

73.3

Transl.Bases

0.093

42.3

69.9

Per-Gaussian Transl.

0.087

41.2

69.2

No SE(3) Init.

0.111

39.3

65.7

No 2D Tracks

0.141

30.4

57.8

表3:消融实验结果(数值越低/越高越好)

移除SE(3)运动基底导致性能下降15%,而去掉2D轨迹监督直接腰斩精度——证明双轨监督机制的必要性

讨论与未来展望

当前方法存在四大阿喀琉斯之踵

⏱️ 耗时优化:仍需每场景2小时训练,难实时流式处理

🔄 视角局限:大视角变化时缺失生成能力

📷 相机依赖:纹理缺失场景的位姿估计可能失败

✋ 人工干预:需用户标注运动物体掩码

未来突破方向已然清晰:

🚀 前馈网络:开发端到端模型直接输出4D重建

🧠 生成先验:融入扩散模型处理大视角变化

🤖 全自动分割:用SAM等模型替代人工标注

论文投稿后已有4篇相关研究涌现(如MoSCA、ModGS等),但都采用类似的优化框架。谁能率先突破实时4D重建,谁将主宰下一代视觉算法!

结论:Shape of Motion的无限可能

这项研究突破了单目动态重建的三重边界

🌐 空间维度:首次实现全序列3D运动轨迹重建

⏳ 时间跨度:支持10秒以上的长时运动追踪

🎭 场景复杂度:处理多刚体运动的动态场景

当AR眼镜能实时重建运动物体轨迹,当自动驾驶系统精准预测行人运动路径,当电影特效摆脱昂贵的动捕设备——本文会记得这项研究点燃了4D视觉的革命火炬🔥

龙哥点评

论文创新性分数:★★★★☆

SE(3)运动基底+3D高斯的组合拳创新十足,但数据先验整合思路已有雏形

实验合理度:★★★★★

iPhone+Kubric双数据集验证,消融实验完整,对比基线选择全面

学术研究价值:★★★★★

开辟单目4D重建新范式,已被多篇后续研究引用

稳定性:★★★☆☆

依赖准确的相机位姿估计,纹理缺失场景易失效

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

扫码添加小助理进群

【具身智能之心】知识星球

具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1500人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、Diffusion Policy、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目近60+具身智能相关数据集行业主流具身仿真平台、各类学习路线,涉及当前具身所有主流方向。

扫码加入星球,享受以下专有服务:

1. 第一时间掌握具身智能相关的学术进展、工业落地应用;
2. 和行业大佬一起交流工作与求职相关的问题;
3. 优良的学习交流环境,能结识更多同行业的伙伴;
4. 具身智能相关工作岗位推荐,第一时间对接企业;
5. 行业机会挖掘,投资与项目对接;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值