双目立体视频生成技术调研

最新推荐文章于 2025-11-24 20:11:50 发布

原创

最新推荐文章于 2025-11-24 20:11:50 发布 · 2.1k 阅读

48 ·

CC 4.0 BY-SA版权

文章标签：

#音视频 #stable diffusion #人工智能

StereoCrafter(Tencent AI Lab ARC Lab, Tencent PCG)
论文：https://arxiv.org/abs/2409.07447
代码：https://github.com/TencentARC/StereoCrafter

SVG(Google, The University of Hong Kong)
论文：https://arxiv.org/pdf/2407.00367
代码：https://daipengwa.github.io/SVG_ProjectPage/

StereoDiffusion
论文：https://arxiv.org/abs/2403.04965
代码：https://github.com/lez-s/StereoDiffusion

概要

随着AR、VR设备的兴起，双目立体视频在虚拟现实（VR）、增强现实（AR）和娱乐领域具有广泛的应用前景。然而，生成立体视频面临技术挑战，尤其是如何生成自然的立体视差（stereo parallax），即从两个视角观察时物体位置的差异。传统方法通常需要复杂的3D建模或专用的立体录制设备，这限制了其广泛应用。本文主要介绍最新的基于Diffusion的双目视频生成技术。

技术方案

StereoDiffusion

StereoDiffusion主要用于单图的左右视图合成，利用原始输入生成左侧图像并为其估算时差图(DPT或MiDas模型预测)，然后通过立体像素移动操作生成右侧图像的潜在向量，通过Self-Attn对齐左右视图，每隔固定时间步，通过Symmetric Pixel Shift Masking Denoise将左视图特征拷贝到右视进行融合，以保证前景不被扩散过程模糊掉(猜测)。
请添加图片描述

StereoCrafter

StereoCrafter 利用Diffusion模型能力和构建新数据集实现2D视频转换为具有沉浸式体验的立体3D视频。具体步骤如下：

首先，使用视频深度估计模型DepthCrafter或Depth Anything V2获取到精细的视频深度；
然后将左视图根据视差warp到右视角，具体采用Splatting机制将左视图像素投射到右视图，并采用深度感知方法解决多个像素投影到一个像素的模糊性(类似于OpenGL的深度TEST)，同时提取没有像素的mask作为遮挡区域；
给定warp后的右视图视频，修改了Stable Video Diffusion(SVD)模型用于立体视