通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

PICO-MR 团队提出了一个破局方案:EX-4D,可以从任意单目视频生成其对应的新视角视频。

本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。其他作者均为 Pico MR 团队核心成员。

去年一年来,Sora、可灵、Veo 等模型掀起了视频生成领域的革新。而在构建更逼近真实的世界模型征程中,相机可控的视频生成技术堪称核心拼图 —— 它让视频生成模型不再是单向的 “世界模拟器”,而是能被用户自由探索的 “平行宇宙”,为沉浸式 3D 电影等颠覆性应用奠定基础!

然而,从单视角视频,生成其对应的极端视角(比如方位角在 ±90° 改变)新视频仍是行业难题。现有的开源方法或依赖多视角相机 - 视频数据集训练 [4,5],或受困于遮挡区域表示的局限 [1,2],难以跨越 “视角自由” 与 “物理真实” 的双重鸿沟。

对此,PICO-MR 团队提出了一个破局方案:EX-4D,可以从任意单目视频生成其对应的新视角视频。EX-4D:

  • 一致性更强:EX-4D 在 FID、FVD 等指标上超越了最新的开源方法,支持生成高物理一致性的新视角视频。
  • 视角跨度更大:得益于新几何先验格式,EX-4D 能支持极端视角下的高质量视频生成。
  • 综合效果更好:轻量级 LoRA Adapter 能充分利用 WAN-2.1 基座模型的强大生成能力,生成细节、质量更好的视频。

图片

  • Arxiv 链接: https://arxiv.org/abs/2506.05554
  • 项目主页链接: https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
  • 代码链接: https://github.com/tau-yihouxiang/EX-4D

现有方法的困境

目前相机可控的视频生成方法可分为 2 种主要思路。一类方法直接利用相机外参作为条件控制视角生成。这种方法需要自行构建多个视角下的相机 - 视频数据对,并且难以控制不同数据分布下的相机的位移尺度,在未知分布的视频输入上可能出现严重的视角偏移。第二类方法则直接将像素点投影成点云作为额外的先验信息。这些点云投影无法保留物体之间的遮挡关系,在物体的交界部分非常依赖基座模型本身的能力。这种不可控性容易导致错误的几何关系。

EX-4D 的三大核心设计

EX-4D 的核心目标是实现一个泛用的,从单目视频生成新视角下视频的模型。其总体框架如下图所示:

图片

为了充分利用丰富的各类视频数据,同时保证生成视频满足高质量和高物理一致性,EX-4D 提出了如下三个关键设计。

  • 深度密闭网格(DW-Mesh)实现遮挡面提取:DW-Mesh 表示是 EX-4D 框架的核心。它突破了点云的局限,首次提出使用一个全密闭网格结构,同时记录可见 / 隐面片,无需多视角监督就能统一处理场景拓扑。EX-4D 利用最新的预训练深度预测出每帧深度图,从而将像素点投影到 3D 空间形成网格顶点,并从相邻顶点中构建出网格面片。

图片

EX-4D 根据几何关系标记遮挡面片。通过设置当面片最小角度小于指定阈值,或者跨度大于指定阈值时,可以提取出前景与背景之间的遮挡面。

图片

生成的 DW-Mesh 表达能为每一帧提供连续的遮挡 mask,以此确保极端视角下的生成视频的物理一致性。

  • 模拟 mask 生成策略构建数据集:为解决多视角训练数据缺乏的问题,EX-4D 提出了 2 种模拟 mask 生成策略。

图片

  • 渲染 mask 关注模拟视角移动下的物体间的遮挡关系。EX-4D 利用 DW-Mesh 表示来模拟新视角下的遮挡关系。通过构建输入视角的 DW-Mesh,并在给定相机轨迹下渲染来获得不可见区域的 mask。形态学膨胀可以进一步去除噪声,满足更真实的遮挡逻辑。
  • 跟踪 mask 的则关注保持可见区域的边缘像素一致,以更贴近推理阶段视频下的真实 mask。EX-4D 使用 Cotracker3 [3] 模型,通过跟踪锚点来确保帧间的可见部分一致性,让训练数据无限逼近真实场景。

借助这两种生成策略,无需昂贵多视角采集,仅凭单目视频就能 “脑补” 全视角数据,破解世界模型训练的数据困局!

  • 轻量级 LoRA Adapter:EX-4D 基于预训练的 WAN-2.1 模型,引入 LoRA-based Adapter,来完成 mask video inpainting 任务。基于 LoRA 的 adapter 架构将 DW-Mesh 的几何先验信息融入视频生成过程,在保持计算需求可控的同时,保证了补全视频的几何一致性和帧间一致性。
实验结果:EX-4D 如何定义「极致」

为了展示 EX-4D 在新视角生成的巨大潜力,EX-4D 使用包含 150 个网络视频的数据集,并使用 FID、FVD 和 VBench [6] 等指标评估模型性能。

图片

在各种视角跨度范围之内,EX-4D 均全面超越了现有的开源可控视角生成方法。值得关注的是,新输入视角角度越极端(越偏向 90°),EX-4D 性能优势越明显,充分展示了 DW-Mesh 表示在物理一致性保持上的潜力。在 VBench 指标上,EX-4D 在绝大多数指标上取得最高分,进一步展现了强大的综合生成能力。

此外,EX-4D 还邀请了 50 位志愿者对 EX-4D 和其他开源方法的生成效果进行评分。70.70% 的参与者认为 EX-4D 方法在极端视角下的物理一致性断层领先。

图片

当已有的开源方法在剧烈视角变化中 “露破绽”(物体穿帮、遮挡错乱),EX-4D 却能精确保留高一致性的物体细节。 

图片

针对 EX-4D 的充分消融实验充分论证 EX-4D 中每种策略的有效性。其中 DW-Mesh 表示对性能的提升最大。两种针对训练数据的 mask 生成策略对于模型的训练都至关重要。而 EX-4D 采用的 16 rank 轻量级 LoRA-based Adapter 效率已经足够高,增加 rank 仅带来轻微性能提升。

图片

总结与未来展望

定性和定量实验说明,EX-4D 方法能够生成高物理一致性、高质量的视频结果,并且可以广泛用于小角度偏移到极端视角的各种场景,提升了新视角预测的自由度。后续的视频可控生成之中,EX-4D 将着眼于提高深度预测的精度,并提高模型推理速度,向更快、更好的可控视频生成进发,为世界模型助力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值