3D场景视频生成技术调研

最新推荐文章于 2025-11-25 10:34:52 发布

原创

最新推荐文章于 2025-11-25 10:34:52 发布 · 1.5k 阅读

44 ·

CC 4.0 BY-SA版权

文章标签：

#3d #音视频

WonderJourney(Stanford University, Google Research)
论文：https://arxiv.org/pdf/2312.03884
代码：https://kovenyu.com/WonderJourney/

WonderWorld(Stanford University, MIT)
论文：https://arxiv.org/pdf/2406.09394
代码：https://kovenyu.com/WonderWorld/

Wonderland(Stanford University, MIT)
论文：https://arxiv.org/abs/2412.12091
代码：https://snap-research.github.io/wonderland/

概要

随着LLM、VLM、Diffusion模型、深度估计等技术的进步，3D场景视频的生成可能也是下一个热门方向，并在虚拟现实（VR）、增强现实（AR）和娱乐领域具有广泛的应用前景。本文主要介绍Stanford团队的Wonder系列3D场景漫游视频生成技术。

技术方案

WonderJourney

该方法无需任何训练，给定文本或单图均可，通过text2image或者caption得到图像-文本对，将文本输入LLM生成Next scene description，同时用MIDAS v3.1预测单目深度，根据深度渲染出新视角，输入Next scene description进行图像和深度补全，并将补全结果输入VLM判断场景生成是否有合理.
请添加图片描述
新视图生成流程如下，需要加入Depth Refinement，通过SAM对像素分组 $segjj=1N{seg_j}^N_{j=1}$ ，每个片段中对边缘执行中值滤波。

其他技术点：Stable Diffusion inpainting model，被遮挡深度后移，VLM判断“Is there any Xt in this image”

WonderWorld

本文方法第一个实现用户以低延迟交互式创建多样化、连通的场景，并引入了FLAGS表示法，用于快速场景生成，以及从单个视角生成场景。进一步引入深度引导扩散模型来减轻几何畸变。
请添加图片描述
**Fast LAyered Gaussian Surfels (FLAGS)**将每个场景分为景、背景和天空，每一层由面元集合表示，每个面元是一个2DGS盘(位置p、方向四元数q、xy轴长s、不透明度o和颜色c参数构成)。方差计算和渲染原理同3DGS，只移除了z轴和球谐颜色。Geometry-based initialization根据深度执行pixel-aligned生成，每个像素点对应一个gaussian盘，c初始化为像素颜色，gs盘位置p由位姿、内参和深度计算得到，GS球的旋转矩阵 $Q = [Q_x, Q_y, Q_z]$