在由语义布局生成图像的应用中,一般将布局图加随机噪声作为输入,经一系列变换得到最终输出。但归一化过程会破坏布局图像的语义信息,使得特征趋于同性,影响生成图像效果。文章《Semantic Image Synthesis with Spatially-Adaptive Normalization》采用空间自适应系数作为归一化层的缩放因子,保留了布局图的局部语义信息,使得生成图像更真实多样。
论文地址:
https://arxiv.org/pdf/1903.07291.pdf
代码地址:
https: //github.com/NVlabs/SPADE.
引言
作者提出了一种空间自适应的归一化方法,使得由语义布局图生成的图像更具真实性多样性。之前的方法一般将语义布局图加噪声作为网络输入,在经过归一化层后会损失部分语义信息。为解决这个问题,作者将语义布局作为归一化层输入,通过卷积生成不同的缩放系数,保留了语义信息,使生成图像更真实。
数据集
作者使用了COCO-Stuff、ADE20K、Flickr Landscapes和Cityscapes数据集。COCO-Stuff数据集包含118000张训练图像和5000张测试图像。ADE20K数据集包含20210张训练图像和2000张测试图像。Flickr Landscapes包含40000张训练图像和1000张测试图像。Cityscapes包含3000张训练图像和500张测试图像。
模型
该方法采用了生成对抗网络结构。输入随机噪声与语义布局图,输出为相同布局信息的生成图像。利用生成图像与真图间的感知损失和生成图像与布局图间的一致性损失,监督网络训练。
模型结构
该方法生成器网络结构如下图所示。整体网络采用了残差网络的相似结构,区别在于将BatchNorm层换为SPADE模块。逐级增大输出特征尺寸并降低特征维度,最终输出大小为512*512。与其他pixel2pixel方法相比,该方法原始输入只有噪声向量,语义布局图通过缩放到不同尺寸,输入到SPADE模块。
SPADE模块结构
SPADE模块结构如下图所示。
对于输入的语义布局图,通过卷基层提取特征,再分别通过两个卷基层得到归一化层的缩放系数与偏置项
γ
c
,
y
,
x
i
以
及
β
c
,
y
,
x
i
{\gamma}_{c,y,x}^{i} 以及 {\beta}^{i}_{c,y,x}
γc,y,xi以及βc,y,xi。与传统BatchNorm操作不同的是,此时的系数
γ
c
,
y
,
x
i
以
及
β
c
,
y
,
x
i
\gamma_{c,y,x}^{i} 以及 \beta_{c,y,x}^{i}
γc,y,xi以及βc,y,xi是矩阵而不是向量。将标准化后的特征缩放并偏置后输出。
其中
μ
c
i
\mu_c^i
μci
实验结果
该方法与baseline方法定量比较结果如下表所示。
该方法在4个数据集上绝大部分指标都大比例领先于其他基准方法。由于SIMS方法在生成图像时是通过在训练集中搜索匹配的图像区域做填充得到的,所以与真实图像的FID指标结果较好。
该方法与baseline方法定性比较结果如下图所示。
从上图可看出作者提出方法在生成图像细节的真实性与多样性上有了较明显提升,与真实图像更为接近。
结论
作者提出了一种空间自适应的归一化方法。在归一化层,该方法将语义布局图作为输入,生成空间自适应缩放因子,从而在归一化过程中保留了语义信息。通过该方法生成的图像具有更强的真实性和多样性。

扫码识别关注,获取更多论文解读