文章汉化系列目录
摘要
本文研究了仅基于场景图的图到图像生成问题,旨在解开知识图与图像之间隐含的语义关系。尽管大多数现有研究依赖繁琐的辅助信息(如对象布局或分割掩码),探索在有限监督下模型的泛化能力也很有意义,这样可以避免额外的跨模态对齐。为应对这一挑战,我们深入探讨了对抗生成过程中的因果关系,并推导出一种新的原则,以实现目标分布和模型分布对齐的同时进行语义解耦。该原则被命名为知识共识,它明确描述了观察到的图像、图语义和隐藏的视觉表示之间的三角因果依赖关系。知识共识还定义了一种新的图到图像生成框架,通过若干对抗优化目标来实现。广泛的实验结果表明,即使仅基于场景图,我们的模型在语义感知图像生成方面表现优越,同时保持了通过知识图操控生成过程的能力。
引言
条件图像生成(Isola et al. 2017)在计算机视觉领域越来越受欢迎,因为它能够使生成建模更具可控性,同时具备认知理解视觉世界的潜力。先前的研究大多致力于将条件与各种场景描述相结合,例如自然语言指令(Tan, Feng, and Ordonez 2019)、边界框(Zhao et al. 2019; Sun and Wu 2019; Talavera et al. 2019)、语义分割(Reed et al. 2016; Li et al. 2019)、场景图(Johnson et al. 2018; Herzig et al. 2020)等。尽管结合尽可能多的条件类型通常是合理的,但也有充分的动机去使用尽可能少的条件。原因包括但不限于:1)在现实世界场景中,无法保证我们模型所需的所有条件都可获得;2)在进行人机交互生成时,仅控制一个或两个变量更加友好;3)引入额外的监督不仅是“加法”,而是“乘法”,因为它可能增加模型的复杂性。
在本文中,我们基于 (Mittal et al. 2019) 和 (Herzig et al. 2020) 的工作,仅依赖场景图进行图像生成,因为场景图通常同时包含对象及其关系(相较于边界框或其他类似的布局信息),并且比语言和分割更易于操控。然而,这显然带来了在生成具有精确语义一致性的图像时,仅依赖潜在空间和场景图中的语义因素之间关系的挑战。为应对这一挑战,(Mittal et al. 2019) 和 (Herzig et al. 2020) 在构建关系时因忽略语义一致性而建立了相对较弱的对应关系,因此它们在生成质量上通常不如那些具有额外监督的方法。
不同于这些方法,我们的目标是充分利用场景图中的信息,并与隐藏空间建立强关系,以从侧面实现语义一致性。因果推理(Pearl et al. 2009)是满足我们需求的最有力工具之一。实际上,仅依赖场景图,因果推理便能帮助我们识别图和其隐藏空间之间的因果关系。正如 (Kocaoglu et al. 2018) 所指出的,因果关系对生成模型至关重要,因为通过一个成熟的因果模型,我们可以利用 GAN 模型学习符合生成器的干预分布和观测分布。基于这一发现,我们通过将因果依赖性添加到现有的基于图的生成模型(如 (Johnson et al. 2018) 的 Seg2Img 和 (Zhao et al. 2019) 的 Layout2Im)上来实现我们的目标。这些工作使用分割掩码或布局来确定图像中的对象位置,以构建从潜在空间到图的直接映射,这可以看作一种对应发现机制。为了实现相对相似且强的对应关系,我们的因果依赖识别使得随机潜在空间与图语义一致。如图1所示,我们描绘了我们的框架与典型示例的差异。由于使用了多种辅助布局信息,常规方法(如顶部图示)中的对应关系(绿色框)直接基于图知识和潜在编码,而我们的框架(如底部图示)在没有其他条件(仅依赖场景图)的情况下,通过在图知识和潜在编码之间建立因果依赖关系(红色框)来实现对应关系。