Mono2Stereo: A Benchmark and Empirical Study for Stereo Conevrsion
摘要
随着3D设备的迅速普及和3D内容的短缺,立体转换正吸引越来越多的关注。近期的研究将预训练的扩散模型(DMs)引入到这一任务中。然而,由于大规模训练数据和全面基准的缺乏,如何最优地使用DMs进行立体转换以及如何准确评估立体效果仍然是一个未充分探索的领域。在本工作中,我们引入了Mono2Stereo数据集,提供高质量的训练数据和基准,以支持对立体转换的深入研究。通过这一数据集,我们进行了一项实证研究,得出了两个主要发现:
- 左视图和右视图之间的差异非常微妙,而现有的评估指标考虑的是整体像素,未能集中在对立体效果至关重要的区域。
- 主流方法要么采用单阶段的左到右生成,要么采用变形和修复管道,分别面临立体效果退化和图像失真的挑战。
基于这些发现,我们引入了一种新的评估指标——立体交并比(Stereo Intersection-over-Union),该指标优先考虑视差,并与人类对立体效果的判断高度相关。此外,我们提出了一种强大的基线模型,能够同时优化立体效果和图像质量,并显著超越当前的主流方法。我们的代码和数据将开源,以促进立体转换领域的进一步研究。这是我们的项目页。论文地址
Contribution
1.我们构建了Mono2Stereo,一个大规模的基准数据集,旨在实现高质量的立体转换。该基准数据集涵盖了三个关键维度,以促进对这些方法的全面评估。
2.我们引入了立体交并比(Stereo Intersection-over-Union, SIoU),这是一种新颖且开创性的评估指标,旨在评估立体对中立体效果的显著性。该指标有效地补充了现有的评估指标,以实现全面的评估。
3.通过广泛的实验,我们建立了一个强大的基线模型用于立体转换。得益于双条件和边缘一致性损失,我们的模型在图像质量和立体效果方面都取得了令人信服的成果。
简介
近年来,一些研究工作利用深度生成模型,特别是预训练的扩散模型进行立体转换,因为这些模型具有出色的图像生成能力。
这些工作可以根据是否需要视差估计分为两阶段和单阶段方法。两阶段方法首先根据视差图对左视图图像进行几何变形,然后在第二阶段使用修复模型消除变形操作引入的遮挡。这些方法高度依赖于准确的深度或视差估计,通常会导致生成输出中出现明显的伪影。相比之下,单阶段方法在不进行显式视差估计的情况下进行转换,直接从左视图输入生成右视图图像。由于左视图和右视图图像之间的差异非常微妙,单阶段方法容易退化为恒等映射,导致立体效果不足。
尽管已经有一些努力探索使用扩散模型进行立体转换,但由于缺乏大规模的公开训练数据集和标准化的基准,两个关键问题仍然未得到充分研究。
首先,单阶段方法和两阶段方法的相对优劣是什么,是否有更有效的利用扩散模型进行立体转换的方法?
其次,如何更准确地评估生成内容的立体效果?
本工作介绍了Mono2Stereo,这是一个包含超过240万对立体图像的新数据集,涵盖了多样化的场景,包括室内和室外环境、动画和现实生活内容,以及复杂度不同的场景。利用这一数据集,我们进行了全面的实证研究,探讨了两个关键问题并提出了两个有洞察力的发现。
- 两种主流方法各有优缺点。单阶段方法在生成高保真图像方面表现出色,但其立体效果不够令人满意。相比之下,两阶段模型由于显式的视点提示,在立体效果方面表现更好,但在图像质量方面面临挑战。
- 常规指标如均方根误差(RMSE)和结构相似性指数(SSIM)评估所有像素差异或图像统计特征,但忽略了立体转换任务中的视差关系,因此无法准确反映立体效果的质量。为了设计专门的立体质量评估指标,我们基于对视图间视差和显著影响立体感知的因素的仔细分析,设计了立体交并比(Stereo Intersection-over-Union, SIoU)。广泛的主观评价显示,SIoU与人类对立体效果的判断高度相关,补充了现有的图像质量评估指标,实现了对立体转换的全面评估。
数据集构建和评测指标
在本节中,我们介绍Mono2Stereo数据集。首先详细说明数据集的收集和划分。然后介绍我们提出的新评估指标,即立体交并比(SIoU)。
数据收集
高质量、大规模的数据集对于训练稳健的立体转换模型至关重要。然而,目前缺乏公开可用的此类数据集。因此,我们从互联网上收集立体内容,并进行彻底的手动审查,以消除低质量和潜在敏感的材料。这一过程最终整理出了200部视频和电影(超过2000万帧)。
3D内容通常在不同设备上被处理成各种格式。为了最大限度地保留信息并允许灵活的转换,我们选择了并排3D格式,其中每一帧都包含对应的左视图和右视图图像。为了增强数据集的多样性和最小化帧间冗余,我们每8帧中抽取一帧。最后,所有帧都被统一调整为960×540的分辨率,最终数据集的大小为240万对。
数据划分
为了全面评估立体效果的三个关键方面:视差准确性、场景复杂性和颜色一致性,我们建立了五个不同的测试类别。如表1所示,我们为每个类别提供了500对不重叠的测试样本。室内和室外场景具有不同的视差范围。简单和复杂场景类别涵盖了各种场景布局和纹理复杂度。动画内容与自然图像在颜色分布上存在显著差异。通过在这些类别中进行评估,我们可以全面评估立体转换模型在不同维度上的性能。此外,我们的基准测试还可以适应于评估视频立体转换。
立体交并比
准确的评估指标是计算机视觉任务发展的基石。在立体转换任务中,传统的图像生成指标,如均方根误差(RMSE)、峰值信噪比(PSNR)和结构相似性指数(SSIM),通常被用于评估立体转换结果。这些指标通常测量生成结果与真实值之间的全局差异,以反映生成质量。然而,如图2所示,左视图和右视图之间的差异区域,这些对立体效果至关重要的区域,仅占整个图像的一小部分。因此,强调全局差异的指标可能会容易忽视这些关键区域的质量评估,使得难以准确捕捉生成结果的立体质量。
我们进一步在我们的数据集上进行了实验验证。如表2所示,我们使用RMSE、PSNR和SSIM作为评估指标,并比较了两个模型的性能:一个商业立体转换模型(OWL3D 1)和一个输出与输入左视图图像相同的恒等映射模型。可以看出,尽管恒等映射模型生成的结果没有立体效果,但它在所有三个指标上都取得了高分,进一步验证了这些传统指标难以有效评估立体质量。
为了准确评估生成图像的立体质量,我们提出了一种新的评估指标:立体交并比(Stereo Intersection-over-Union, SIoU)。与传统指标不同,我们在指标中优先考虑视差一致性,确保生成图像与左视图图像之间的差异与真实右视图图像与左视图图像之间的差异一致。此外,大量的观察表明,视差变化过程中边缘生成的失真会导致不真实的立体体验和视觉质量下降。因此,我们旨在确保生成图像的边缘结构与真实图像的边缘结构高度一致。基于这些观察和考虑,我们提出了SIoU这一新指标,该指标结合了视差一致性和边缘结构一致性。
记左视图、右视图和生成图像分别为 X l \boldsymbol{X}_l Xl、 X r \boldsymbol{X}_r Xr 和 X r 0 \boldsymbol{X}_r^0 Xr0,我们首先将所有图像转换为对应的灰度表示 L \boldsymbol{L} L、 R \boldsymbol{R} R 和 G \boldsymbol{G} G,并定义SIoU为:
其中, E r \boldsymbol{E}_r Er 和 E g \boldsymbol{E}_g Eg 分别表示从 R \boldsymbol{R} R 和 G \boldsymbol{G} G 中使用 Canny 边缘检测器提取的单通道二值边缘图。具体来说,第一项计算 E r \boldsymbol{E}_r Er 和 E g \boldsymbol{E}_g Eg 之间的交并比(IoU),量化生成图像与右视图图像之间的边缘结构相似性。第二项利用左视图和右视图之间的差异作为参考,计算绝对差异图的交并比,这反映了生成图像的视差一致性。需要注意的是,在第二项中,两幅图像之间的差异图是连续的。我们通过应用阈值将这些图二值化。在本工作中,我们将平衡参数 α \boldsymbol{\alpha} α 设为 0.75。
基于扩散模型的立体影像转换
问题定义
立体转换任务的目标是从左视图图像生成右视图图像。一阶段范式以左视图图像为输入,直接估计右视图图像的分布,表示为 D ( X r ∣ X l ) D(\boldsymbol{X}_r | \boldsymbol{X}_l) D(Xr∣Xl)。在两阶段范式中,首先基于 X l \boldsymbol{X}_l Xl 估计深度或视差,然后根据视差图对左视图图像进行变形,生成 X w \boldsymbol{X}_w Xw,作为修复模型的输入。两阶段范式可以表示为 D ( X r ∣ X w ) D(\boldsymbol{X}_r | \boldsymbol{X}_w) D(Xr∣Xw)。这两种范式在条件去噪问题中共享相同的底层模型,仅在条件上有所不同。
为了充分利用从扩散模型预训练中获得的知识,我们遵循了一种成功的实践,即 Marigold。通过使用变分自编码器
ε
:
Z
=
ε
(
X
)
\boldsymbol{\varepsilon}: \boldsymbol{Z} = \boldsymbol{\varepsilon}(\boldsymbol{X})
ε:Z=ε(X) 将 RGB 图像编码到低维潜在空间中,所有去噪过程都在这个空间中进行,显著减少了计算成本。具体来说,在训练阶段,高斯噪声 (
ϵ
∼
N
(
0
,
I
)
\boldsymbol{\epsilon} \sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})
ϵ∼N(0,I)) 逐渐添加到
X
r
\boldsymbol{X}_r
Xr 的潜在表示
Z
r
\boldsymbol{Z}_r
Zr 中,以获得带噪声的样本
Z
r
t
\boldsymbol{Z}_r^t
Zrt,表示为
其中 α t ˉ : = ∏ j = 1 t ( 1 − β j ) \bar{\boldsymbol{\alpha}_t} := \prod^t_{j=1}(1-\boldsymbol{\beta}_j) αtˉ:=∏j=1t(1−βj), t t t 是时间步,{ β 1 , … , β j \boldsymbol{\beta}_1, \dots, \boldsymbol{\beta}_j β1,…,βj} 是一个 \textit{T} 步过程的方差调度。条件去噪模型 ϵ θ \boldsymbol{\epsilon}_{\theta} ϵθ 逐步去噪 Z r t \boldsymbol{Z}_r^t Zrt 以获得 Z r t − 1 \boldsymbol{Z}_r^{t-1} Zrt−1,其中 θ \theta θ 表示可学习的参数。在推理阶段,通过从初始正态分布变量 Z t \boldsymbol{Z}^t Zt 开始,经过 t t t 次去噪器 ϵ θ \boldsymbol{\epsilon}_\theta ϵθ 的迭代去噪,逐步获得更干净的估计 Z r 0 = ϵ θ ( Z t , Z l ) \boldsymbol{Z}_r^0 = \boldsymbol{\epsilon}_\theta(\boldsymbol{Z}^t, \boldsymbol{Z}_l) Zr0=ϵθ(Zt,Zl)。然后, Z r 0 \boldsymbol{Z}_r^0 Zr0 通过解码器解码,生成右视图图像 X r 0 \boldsymbol{X}_r^0 Xr0 的预测。值得注意的是,在训练过程中不需要解码步骤,从而节省了大量时间。
最佳条件探索
在架构设计方面,我们首先分析了两种范式的特性。单阶段范式的输入是原始左视图图像
X
l
\boldsymbol{X}_l
Xl,提供了完整的结构和纹理信息。相比之下,两阶段范式使用视差变形图像
X
w
\boldsymbol{X}_w
Xw 作为输入,明确提供视点信息作为引导。为了清晰起见,我们将左视图图像的潜在表示定义为几何条件,记为
Z
l
\boldsymbol{Z}_l
Zl。同时,左视图图像经过视差变换后的图像的潜在表示称为视点条件,记为
Z
w
\boldsymbol{Z}_w
Zw。为了评估不同范式下扩散模型的性能,我们独立评估每个条件。具体来说,对于几何条件,左视图图像直接由变分自编码器(VAE)处理。为了获得视点条件,我们首先使用深度估计模型估计视差图。然后根据该视差图对输入图像进行变形,得到的变形图像
X
w
\boldsymbol{X}_w
Xw 输入到 VAE 中以获得
Z
w
\boldsymbol{Z}_w
Zw。每个条件随后与右视图图像的带噪声样本
Z
r
t
\boldsymbol{Z}_r^t
Zrt 连接,并传递到 UNet 进行去噪。通过实验,我们发现几何条件生成的图像质量更优,而视点条件生成的立体效果更引人注目。因此,我们探索了一种双条件方法,将几何条件
Z
l
\boldsymbol{Z}_l
Zl、视点条件
Z
w
\boldsymbol{Z}_w
Zw 和带噪声的右视图样本
Z
r
t
\boldsymbol{Z}_r^t
Zrt 同时连接作为输入,如图 3 所示。目标是使模型具备明确的视点提示,同时允许其参考完整的几何信息,从而从各种输入源中提取更丰富的信息。为了确保与原始潜在扩散模型的兼容性,我们复制其 UNet 的第一个卷积层一次或两次,并相应地减少权重。通过采用双条件建模,我们展示了同时实现高图像质量和引人注目的立体效果的可行性。
缓解模型退化
在立体转换任务中,左视图和右视图图像之间的总体差异很小,即使在潜在空间中也是如此,只有少数元素表现出显著的差异。这给模型优化带来了挑战,因为输入条件和需要估计的目标高度相似,导致模型走捷径。换句话说,模型生成的图像往往与输入图像非常相似,而不是所需的右视图图像,如图6的第 2 行所示。此时,模型几乎退化为恒等映射,这对立体效果极为不利。值得注意的是,两种范式都表现出不同程度的退化,单阶段几何条件下的问题更为明显。
我们对立体图像对的分析,如图2所示,发现左视图和右视图图像之间的主要差异集中在物体边缘的高频细节上。因此,一个直接的方法是施加一致性约束,最小化估计结果 X r 0 \boldsymbol{X}_r^0 Xr0 的边缘与右视图图像 X r \boldsymbol{X}_r Xr 的边缘之间的距离。然而,直接优化生成的图像会带来巨大的计算成本,我们希望在训练过程中避免通过解码器进行前向传播。
一些研究 强调了潜在表示和图像之间的空间相关性,我们在速度预测目标的背景下也证实了这一点,如图 4所示。利用这一观察,我们提出了一种边缘一致性损失(EC 损失)。具体来说,我们使用 Sobel 边缘提取算子增强速度表示 ϵ \boldsymbol{\epsilon} ϵ 和 ϵ ^ \boldsymbol{\hat{\epsilon}} ϵ^ 中的边缘信息,然后对提取的边缘信息施加约束。我们定义边缘一致性损失如下:
其中 S S S 表示 Sobel 算子。为了确保两个损失项的值大致相同,我们将平衡因子 α \boldsymbol{\alpha} α 设为 1。需要注意的是,这一约束适用于所有范式,无论具体是哪种范式。
实验
细节欢迎浏览论文。
如果我们的工作对您有帮助,也欢迎给我们的项目点个星或引用我们的论文。
BibTeX
@misc{yu2025mono2stereobenchmarkempiricalstudy,
title={Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion},
author={Songsong Yu and Yuxin Chen and Zhongang Qi and Zeke Xie and Yifan Wang and Lijun Wang and Ying Shan and Huchuan Lu},
year={2025},
eprint={2503.22262},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2503.22262},
}
结论
本工作介绍了 Mono2Stereo,一个旨在解决立体转换任务中公开可用数据缺乏问题的新数据集。基于该数据集,我们提出了立体交并比(SIoU),一种新的立体质量评估指标。在方法上,我们进行了实证研究,并引入了一个稳健的双条件基线框架,该框架能够实现高质量生成并具有令人信服的立体效果。此外,我们展示了引入边缘一致性损失可以缓解退化并提升立体质量。我们相信,我们的基准将促进立体转换任务的进一步发展。