3D场景视频生成技术调研

WonderJourney(Stanford University, Google Research)
论文:https://arxiv.org/pdf/2312.03884
代码:https://kovenyu.com/WonderJourney/

WonderWorld(Stanford University, MIT)
论文:https://arxiv.org/pdf/2406.09394
代码:https://kovenyu.com/WonderWorld/

Wonderland(Stanford University, MIT)
论文:https://arxiv.org/abs/2412.12091
代码:https://snap-research.github.io/wonderland/

概要

随着LLM、VLM、Diffusion模型、深度估计等技术的进步,3D场景视频的生成可能也是下一个热门方向,并在虚拟现实(VR)、增强现实(AR)和娱乐领域具有广泛的应用前景。本文主要介绍Stanford团队的Wonder系列3D场景漫游视频生成技术。

技术方案

WonderJourney

该方法无需任何训练,给定文本或单图均可,通过text2image或者caption得到图像-文本对,将文本输入LLM生成Next scene description,同时用MIDAS v3.1预测单目深度,根据深度渲染出新视角,输入Next scene description进行图像和深度补全,并将补全结果输入VLM判断场景生成是否有合理.
请添加图片描述
新视图生成流程如下,需要加入Depth Refinement,通过SAM对像素分组segjj=1N{seg_j}^N_{j=1}segjj=1N,每个片段中对边缘执行中值滤波。
请添加图片描述
请添加图片描述
其他技术点:Stable Diffusion inpainting model,被遮挡深度后移,VLM判断“Is there any Xt in this image”

WonderWorld

本文方法第一个实现用户以低延迟交互式创建多样化、连通的场景,并引入了FLAGS表示法,用于快速场景生成,以及从单个视角生成场景。进一步引入深度引导扩散模型来减轻几何畸变。
请添加图片描述
**Fast LAyered Gaussian Surfels (FLAGS)**将每个场景分为景、背景和天空,每一层由面元集合表示,每个面元是一个2DGS盘(位置p、方向四元数q、xy轴长s、不透明度o和颜色c参数构成)。方差计算和渲染原理同3DGS,只移除了z轴和球谐颜色。Geometry-based initialization根据深度执行pixel-aligned生成,每个像素点对应一个gaussian盘,c初始化为像素颜色,gs盘位置p由位姿、内参和深度计算得到,GS球的旋转矩阵Q=[Qx,Qy,Qz]Q = [Q_x, Q_y, Q_z]Q=[Qx,Qy

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值