高级深度生成模型,例如StyleGAN和BigGAN,在自然图像合成方面取得了巨大成功。但这些基于2D表示的模型无法以3D一致性方式合成实例新视图。它们也无法表示明确的三维物体形状。
为了克服这些限制,研究人员提出了新的深度生成模型,将3D场景表示为神经辐射场。3D感知生成模型可以显式控制视点,同时在图像合成过程中保持3D一致性。它们展示了在无监督情况下从一组无约束的2D图像中学习3D形状的巨大潜力。如果可以训练出学习精确3D物体形状的3D感知生成模型,各种下游应用就可以的到拓展,如3D形状重建和图像重照明。
现有3D感知图像合成尝试倾向于学习不准确且有噪声的粗略3D形状,如下图所示。研究发现,这种不准确是由于方法所采用的训练策略不可避免地存在模糊性。特别是一种正则化,称之为“多视图约束”,用于强制三维表示,使其从不同的视点看起来更逼真。
这种约束通常首先将生成器的输出(例如,辐射场)投影到随机采样视点,然后将它作为假图像提供给鉴别器进行训练。虽然这种约束使模型能够以3D感知的方式合成图像,但会受到形状-颜色模糊关联的影响,即便有微小的形状变化也能生成类似的RGB图像,这些图像在鉴别器看来同样可信,因为许多物体颜色是局部平滑的。因此,不准确的形状仍然隐藏在这个约束下。
用于形状精确三维感知图像合成的着色引导生成隐式模型 | NeurIPS2021
在本文中,研究团队提出了一种新的着色引导生成隐式模型(ShadeGAN)来解决上述歧义。特别是,ShadeGAN通过显式建模着色(即照明和形状的交互)学习更精确的3D形状。
一个精确的3D形状不仅应该从不同的角度看起来很逼真,在不同的照明条件下也应该十分逼真,即满足“多重照明约束”。这一想法与光度立体有着相似的直觉,它表明可以从不同照明条件下拍摄的图像中恢复精确表面法线。中国招标网
请注意,多重照明约束是可行的,因为用于训练的真实图像通常是在各种照明条件下拍摄的。为了满足此约束,ShadeGAN采用可重新照明的颜色场作为中间表示,近似反照率,但不一定满足视点独立性。渲染期间,颜色场在随机采样的照明条件下着色。由于通过这种着色处理的图像外观强烈依赖于曲面法线,因此与早期的着色不可知生成模型相比,不准确的3D形状表示将更清晰地显示出来。通过满足多重照明约束,可以鼓励ShadeGAN推断更精确的3D形状,如上图中右下所示。
上述着色处理需要通过反向传播来通过生成器计算法线方向,并且在3D体绘制中,对于单个像素的计算需要重复几十次,从而引入额外的计算开销。现有高效体绘制技术主要针对静态场景,面对动态特性无法直接应用于生成模型。为了提高ShadeGAN的渲染速度,研究团队建立了一个有效的曲面跟踪网络,以评估基于潜在代码的渲染对象曲面。这使他们能够通过仅查询预测曲面附近的点来节省渲染计算,从而在不影响渲染图像质量的情况下减少24%和48%的训练和推理时间。
通过多个数据集上进行综合实验验证ShadeGAN的有效性。结果表明,与之前的生成方法相比,本文提出的方法能够合成照片级真实感图像,同时捕获更精确的底层三维形状。学习到的三维形状分布能够实现各种下游任务,比如三维形状重建,其中ShadeGAN明显优于BFM数据集上的其他基线。对着色过程进行建模,可以显式控制照明条件,实现图像重照明效果。
ShadeGAN可以总结如下:
1)使用满足多重照明约束的着色引导生成模型,从而解决现有三维感知图像合成中形状-颜色模糊问题。ShadeGAN能够学习更精确的3D形状,从而更好地进行图像合成。
2) 通过曲面跟踪设计了一种高效的绘制技术,这大大节省了基于体绘制生成模型的训练和推理时间。
3)ShadeGAN学会了将阴影和颜色分离,更接近反照率,在图像合成中达到了自然重新照明效果。