双目立体视频生成技术调研

StereoCrafter(Tencent AI Lab ARC Lab, Tencent PCG)
论文:https://arxiv.org/abs/2409.07447
代码:https://github.com/TencentARC/StereoCrafter

SVG(Google, The University of Hong Kong)
论文:https://arxiv.org/pdf/2407.00367
代码:https://daipengwa.github.io/SVG_ProjectPage/

StereoDiffusion
论文:https://arxiv.org/abs/2403.04965
代码:https://github.com/lez-s/StereoDiffusion

概要

随着AR、VR设备的兴起,双目立体视频在虚拟现实(VR)、增强现实(AR)和娱乐领域具有广泛的应用前景。然而,生成立体视频面临技术挑战,尤其是如何生成自然的立体视差(stereo parallax),即从两个视角观察时物体位置的差异。传统方法通常需要复杂的3D建模或专用的立体录制设备,这限制了其广泛应用。本文主要介绍最新的基于Diffusion的双目视频生成技术。

技术方案

StereoDiffusion

StereoDiffusion主要用于单图的左右视图合成,利用原始输入生成左侧图像并为其估算时差图(DPT或MiDas模型预测),然后通过立体像素移动操作生成右侧图像的潜在向量,通过Self-Attn对齐左右视图,每隔固定时间步,通过Symmetric Pixel Shift Masking Denoise将左视图特征拷贝到右视进行融合,以保证前景不被扩散过程模糊掉(猜测)。
请添加图片描述

StereoCrafter

StereoCrafter

StereoCrafter 利用Diffusion模型能力和构建新数据集实现2D视频转换为具有沉浸式体验的立体3D视频。具体步骤如下:

  • 首先,使用视频深度估计模型DepthCrafter或Depth Anything V2获取到精细的视频深度;

  • 然后将左视图根据视差warp到右视角,具体采用Splatting机制将左视图像素投射到右视图,并采用深度感知方法解决多个像素投影到一个像素的模糊性(类似于OpenGL的深度TEST),同时提取没有像素的mask作为遮挡区域;
    视角warp最近邻像素插值

  • 给定warp后的右视图视频,修改了Stable Video Diffusion(SVD)模型用于立体视

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值