作者在context encoder的基础上进行改进,整个网络由一个修复网络和两个鉴别网络(全局鉴别网络和局部鉴别网络)组成。修复网络用来对进入其中的图像进行修复,而鉴别网络用来对图像进行判别。鉴别网络的目标是尽可能准确地分类修复出来的图像和ground truth,而修复网络则是尽可能地去愚弄鉴别网络,即要提升修复质量,使得鉴别网络无法准确地分辨修复出来的图像与ground truth。修复网络与鉴别网络组成了生成对抗性网络,以此来提高图像修复质量。
一张ground truth,使用随机生成的mask遮盖掉其中的一部分信息,产生待修复图像。待修复图像进入修复网络中,得到修复后的图像。全局鉴别网络输入整张修复后的图像,而局部鉴别网络输入图像的一个局部区域,局部区域中包含了修复出来的图像信息,两个鉴别网络的输出都是一个1x1024的向量,将两个1x1024拼接成1x2048的向量,在经过一个全连接层,得到最终的值,即为鉴别网络对图像的分类结果(real or fake),所以两个鉴别网络是一起工作的。
训练时,需要使用到修复网络与鉴别网络,训练完成之后,就只需要使用到修复网络了。利用global discriminator 和local discriminator 两种判别器保证生成的图像即符合全局语义,又尽量提高局部区域的清晰度和对比度。论文中的网络结构如下:


最低0.47元/天 解锁文章
300





