【论文阅读笔记】Scalable, Detailed and Mask-Free Universal Photometric Stereo


前言

Conference: CVPR2023
Code: https://github.com/satoshi-ikehata/SDM-UniPS-CVPR2023
paper: https://arxiv.org/abs/2303.15724
独立作者: Satoshi Ikehata
机构: National Institute of Informatics (NII)

给定未知空间变化的光照下的多个图像,可以直接恢复出非凸的、非朗伯曲面的详细表面法线。


在这里插入图片描述

摘要

  1. SDM-UniPS,一个开创性的可扩展、详细、无掩码和通用光度立体网络。可以恢复惊人的复杂表面法线贴图,与3D扫描仪的质量相媲美,即使图像是在不受控制的环境中未知的、空间变化的照明条件下捕获的。我们已经扩展了以前的通用光度立体网络来提取空间光特征,利用高分辨率输入图像中的所有可用信息并考虑表面点之间的非局部交互
  2. 提出了一个新的合成训练数据集,它包含了现实场景中发现的各种形状、材料和照明场景
  3. 了我们的方法不仅在公共基准上超过了校准、特定于照明的技术,而且即使在没有对象掩码的情况下也表现出色

引言

Task

光度立体[59]旨在通过分析从不同光照条件下从固定视角捕获的图像来推断场景的表面法线图。现有光度立体方法都假定了它们特定的照明条件,这导致了它们的适用性的限制。例如,假设定向光照条件(如[25,29,30])的方法不适合自然照明,反之亦然(如[18,44])。

为了克服这一限制,引入了“通用”光度立体方法(UniPS)[27],旨在在未知和任意照明条件下运行。与之前假设特定基于物理的照明模型的未校准光度立体方法 [10, 12, 32] 相比,该方法对每个像素处的非物理特征进行编码,以表示空间变化的照明,这是校准光度立体网络 [26] 中物理照明参数的替代品。这种方法迈出了处理现有方法无法处理的未知、空间变化的照明的第一步。然而,UniPS恢复的表面法线图虽然不完全不准确,但看起来很模糊,缺乏精细细节(见图1右上角)。

调查后,我们确定了导致次优重建性能的三个基本因素。首先,提取照明来自下采样图像的特征(即全局照明上下文)导致较高输入分辨率的信息丢失,并产生模糊伪影。其次,UniPS采用像素级标定光度立体网络利用光照特征预测表面法线,导致整体形状恢复不精确。尽管像素化方法 [25,26,30] 在捕获更精细的细节方面提供了优势 [11, 34, 56],但它们存在无法合并全局信息的问题。

最后,第三个问题在于训练数据中存在的形状、材料和光照条件的多样性有限,这阻碍了其适应各种现实世界情况的能力。这种限制主要源于当前数据集(即 PS-Wild [27])不包括专注于特定入射角的高频分量的光源下的渲染,例如点源或方向源。因此,当暴露于像DiLiGenT[53]这样的定向照明设置时,该方法表现出相当大的性能下降,这将在本文后面演示。

在本文中,我们提出了一种开创性的光度立体网络,可扩展、详细和无掩模的通用光度立体网络(SDM-UniPS),该网络从极端不受控制的照明条件下捕获的图像中恢复出具有显著精度的法线贴图。如图1所示,SDM-UniPS是可扩展的,能够从比训练数据(例如512x512)具有更高的分辨率(例如2048x2048)的图像生成法线贴图;详细地说,在DiLiGenT[53]上提供比大多数现有的正交光度立体技术(包括校准方法)更少的输入图像更准确的法线贴图,在某些情况下,详细超过了3D扫描仪;而且它是无掩码的,即使在没有掩码的情况下,也允许应用,与许多传统方法不同。

我们的技术创新包括:

  1. 开发一种尺度不变的空间光特征编码器,可以有效地提取照明特征,同时利用所有输入数据并保持与输入图像大小的可扩展性。我们的编码器基于“split-and-merge”策略,在不牺牲性能的情况下适应训练和测试期间不同的输入图像大小。
  2. 利用我们的novel像素采样变压器开发表面法线解码器。通过随机采样固定大小的像素,我们使用 Transformers [58] 通过采样像素之间的非局部交互同时预测表面法线,有效地考虑了全局信息。
  3. 创建一个新的合成训练数据集,包括场景中具有不同纹理的多个对象,在包含低频和高频照明的明显不同的照明条件下渲染。(貌似没开源这个 dataset)

我们认为,与现有的需要细致照明控制的光度立体算法相比,最显著的贡献是从数据采集到法线地图恢复的非凡时间节省,即使在未校准的设置中也是如此。这一进展允许光度立体在家中执行,字面上是“在野外”设置。

相关工作

在本节中,我们将简要概述专注于单个正交相机假设的光度立体文献。替代设置(例如,透视、多视角相机)超出了这项工作的范围。

  1. 基于优化的方法:大多数光度立体方法假设Woodham[59]之后校准的方向照明,并通过反向求解基于物理的图像形成模型来优化参数

    • 这种方法可以进一步分类为稳健的方法,其中非朗伯分量被视为异常值 [29, 45, 60, 67];
    • 基于模型的方法,它明确地考虑了非朗伯反射率 [16,28,52];
    • 以及基于实例的方法 [22, 24, 54],这些方法利用在相同条件下捕获的已知对象的观察作为目标场景。
    • 未校准的任务类似于校准的任务,但照明参数未知。
    • 直到最近,大多数未校准的光度立体算法都假设朗伯可积表面,旨在解决一般 Bas-Relief 模糊性 [6, 14, 15, 19, 42,48,51,62]。
    • 与这些工作相比,还探索了自然光下的光度立体,其中自然照明是使用球谐函数 [7,18]、主要太阳照明 [5,23] 或等效定向照明 [17, 44] 来近似的。
    • 尽管大多数基于优化的方法不需要外部训练数据,但它们在处理预定义的逐点图像形成模型无法描述的全局照明现象(例如相互反射)方面从根本上受到限制
  2. 基于学习的方法:基于学习的方法可以有效地解决在简单的图像形成模型中难以表示的复杂现象。

    • 然而,第一个光度立体网络[50]在训练和测试过程中都需要一致的照明条件。为了解决这个限制,已经研究了各种策略,例如观察图 [25, 41]、集合池化 [11, 31]、图卷积 [66] 和 selfattention [26, 36]。
    • 此外,研究人员还探索了未校准的深度光度立体网络[10,12,32,57],其中照明参数和表面法线按顺序恢复。自监督神经逆渲染方法已经开发出来,而不需要外部数据监督
    • Taniai 和 Maehara [56] 使用神经网络而不是参数物理模型,图像和照明作为输入。这项工作由 Li 和 Li [34, 35] 扩展,他们结合了最近的基于神经的坐标表示 [43]。然而,尽管它们做出了巨大的努力,但这些方法旨在仅使用单方向光源工作,并且泛化能力有限,无法推广到更复杂的照明环境
  3. 通用光度立体网络(UniPS)[27]是第一个通过利用称为全局照明上下文的非物理照明表示来消除先验照明模型假设的方法

    • 通过使用 Transformers [58] 沿光轴分层特征图的像素通信为每个光照条件恢复这些全局照明上下文。在表面法线预测过程中,单独选择一个位置,网络聚合所有全局照明上下文(从规范分辨率双线性插值)和不同光照条件下位置的原始观测,以像素级预测表面法线。
    • 该方法引入了两种策略来处理高分辨率图像:将图像下采样到规范分辨率,以恢复全局照明上下文,并使用像素级表面法线预测。尽管这两个概念有助于图像大小的可扩展性,但由于输入信息的丢失和非局部视角的缺失,它们会导致性能下降,如前所述。
  4. 我们的工作从[27]中获得灵感,并且共享一些基本理念,特别是使用Transformers[58]来沿光轴进行特征通信和聚合。然而,我们的方法通过以非局部方式充分利用输入信息而与[27]有所不同,这带来了重建质量的显著提升。

方法

针对最近在[27]中引入的具有挑战性的通用光度立体任务。与之前的校准和未校准任务不同,通用任务对表面几何形状、材料属性或最重要的是照明条件没有假设
该任务的目标是从图像 I k ∈ R H × W × 3 I_k∈R^{H×W×3} IkRH×W×3中恢复法线映射 N ∈ R H × W × 3 N∈R^{H×W×3} NRH×W×3 k ∈ 1 , . . . , K k∈1, ..., K k1,...,K 在 K个未 照明条件下使用正交相机捕获。可选地,可以提供对象掩码 M ∈ R H × W M ∈ R^{H×W} MRH×W

在这里插入图片描述

我们的方法(SDM-UniPS)如图2所示。给定预处理图像和可选的对象掩码,通过沿空间和光轴(即尺度不变的空间光特征编码器)的相互作用提取每个光照条件的特征图

然后,我们从输入图像的坐标系中随机采样位置,并在这些位置双线性插值特征

每个位置的特征和原始观察按像素聚合,并在它们之间的非局部空间交互(即像素采样 Transformer)后从聚合特征中恢复表面法线。与[27]一致,为了清楚起见,我们专注于描述高级概念,而不是提供详细的解释。有关网络架构的全面描述,请参阅附录。

SDM-UniPS

预处理

与[27]一样,我们将输入图像的大小调整为可被32整除的分辨率®,这是大多数分层视觉骨干接受的。为了确保图像值在相似的范围内,每个图像由其最大值和平均值之间的随机值归一化。

尺度不变的空间光特征编码器

经过预处理后,我们通过沿空间和光轴的相互作用从图像中提取特征图和可选的对象掩码。遵循[27]中的基本框架,将每个图像和对象掩码连接起来形成一个张量 O k ∈ R R × R × 4 O_k∈R^{R×R×4} OkRR×R×4,然后将其输入到公共视觉主干[37-39]以提取分层特征映射 B k s ∈ R R S s × R S s × C s {B^s_k}∈R ^{ \frac{R}{S_s}×\frac{R}{ S_s}×C_s} Bk

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值