2021TPAMI/图像处理:Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation

论文下载
代码地址

0.摘要

学习良好的图像先验知识是图像恢复和处理的长期目标。虽然像深度图像先验(DIP)这样的现有方法捕获低级图像统计信息,但对于捕获丰富图像语义(包括颜色、空间一致性、纹理和高级概念)的图像先验来说,仍然存在差距。这项工作提供了一种有效的方法来利用在大规模自然图像上训练的生成性对抗网络(GAN)捕获的图像。如图1所示,深度生成先验(DGP)提供了令人信服的结果来恢复各种退化图像的缺失语义,例如颜色、面片、分辨率。它还支持各种图像处理,包括随机抖动、图像变形和类别转移。这种高度灵活的恢复和操作是通过放宽现有GAN反演方法的假设而实现的,这些方法倾向于固定发生器。值得注意的是,我们允许生成器以渐进的方式进行动态微调,通过GAN中鉴别器获得的特征距离进行正则化。我们表明,这些易于实现且实用的更改有助于保留重建以保留在多个自然图像中,从而导致对真实图像进行更精确和可靠的重建

1.概述

学习图像先验模型对于解决图像恢复和处理的各种任务至关重要,如图像彩色化[1]、[2]、图像修复[3]、超分辨率[4]、[5]和对抗防御[6]。在过去的几十年中,人们提出了许多图像先验知识来获取自然图像的某些统计信息。尽管他们取得了成功,但这些先验知识通常都有其特定的用途。例如,马尔可夫随机场[7]、[8]、[9]通常用于建模相邻像素之间的相关性,而暗通道先验[10]和总变差[11]则分别用于去噪和去噪。
人们对通过深度学习模型获取更丰富图像统计信息的更一般先验知识的兴趣激增。例如,关于深度图像先验(DIP)[12]的开创性工作表明,随机初始化卷积神经网络(CNN)的结构隐式捕获纹理级图像先验,因此可以通过微调它来重建损坏的图像,从而用于图像恢复。SinGAN[13]进一步表明,随机初始化的生成性对抗网络(GAN)模型在从单个图像进行训练后,能够捕获丰富的补丁统计信息。这些先验知识在一些低级别图像恢复和处理任务(如超分辨率和协调)上显示了令人印象深刻的结果。在这两部具有代表性的作品中,CNN和GAN都是从一个感兴趣的图像开始训练的。
在这项研究中,我们有兴趣更进一步,研究如何利用在大规模自然图像上训练的GAN,获得比单个图像更丰富的先验知识。GAN是一种很好的自然图像流形逼近器。通过从大型图像数据集学习,它获取了有关自然图像的丰富知识,包括颜色、空间一致性、纹理和高级概念,这些知识对于更广泛的图像恢复和操作效果非常有用。具体来说,我们将折叠图像(例如灰度图像)作为原始自然图像的部分观察,并使用GAN在观察空间(例如灰度空间)中重建它,GAN的图像先验将倾向于以忠实的方式恢复缺失的语义(例如颜色),以匹配自然图像。尽管GAN具有巨大的潜力,但将其作为常规图像恢复和处理的先验知识仍然是一项具有挑战性的任务。关键的挑战在于需要处理来自性质明显不同的不同任务的任意图像。重建还需要生成符合自然图像流形的清晰、逼真的图像。
对于我们的问题,一个可行的选择是GAN反转[15][16][17][18]。现有的GAN反演方法通常通过优化潜在代码来重建目标图像,即z= arg minz∈Rd L(x, G(z;θ)),其中x为目标图像,G为固定生成器,z和θ分别为潜在代码和生成器参数。在实践中,我们发现这种策略在处理复杂的现实世界图像时失败了。特别是,它经常导致不匹配的重建,其细节(如物体、纹理和背景)与原始图像不一致,如图2 (b)©所示。一方面,现有的GAN反演方法仍然存在模式崩溃[19]和生成器容量有限的问题,影响了其获取所需数据流形的能力。另一方面,可能一个更关键的限制是,当生成器是固定的,GAN不可避免地受到训练分布的限制,其反演不能很好地重建不可见的复杂图像。当使用GAN作为一般图像恢复和操作的先验时,进行这样的假设是不可行的。
尽管近似流形和真实流形之间存在差距,GAN生成器仍然能捕获自然图像的丰富统计信息。为了在利用这些统计数据的同时避免上述局限性,本文提出了一种较为宽松、实用的GAN先验挖掘重构公式。我们的第一个重新表述是允许生成器参数在目标图像上实时微调,即θ∗,z∗= arg minθ,z L(x, G(z;θ))。这解除了将重构限制在训练分布内的限制。然而,通过微调来放松假设仍然不足以保证任意目标图像的良好重建质量。我们发现,在DIP中使用标准损失(如知觉损失[20]或均方误差(MSE))进行微调可能会冒着抹掉原有丰富先验的风险。因此,在重建退化图像的过程中,重建可能变得越来越不自然。图2(d)显示了一个例子,表明需要一种新的损失和重建策略。
因此,在我们的第二次重组中,我们设计了一个有效的重组战略,该战略包括两个部分:

  • 由耦合鉴别器引起的特征匹配损失-我们充分利用训练GAN的鉴别器来正则化重构过程。注意,在训练过程中,生成器经过优化,通过鉴别器提供的梯度来模拟大量的自然图像。在引导生成器匹配单个图像时,仍然采用鉴别器是合理的,因为该鉴别器比其他距离度量更好地保留了生成器的原始参数结构。因此,从鉴别器中获得特征匹配损失有助于维持重建保持在自然图像空间。虽然鉴别器特征匹配损失在文献[21]中并不新鲜,但其对GAN重建的意义尚未被研究。
  • 在重建退化的图像时,随内容的变化而变化。这是因为在高级配置对齐之前,生成器的深层层开始匹配低级纹理。为了解决这个问题,我们提出了一个渐进重建策略,从最浅层到最深层逐步微调生成器。这允许重构从匹配高级配置开始,并逐渐将其焦点转移到低级细节上

在这里插入图片描述

图1所示。这些图像恢复(a)(b)©(d)和操作(e)(f)(g)的效果是通过仅仅利用GAN的丰富生成先验而没有任务特定的建模来实现的。GAN在训练中看不到这些图像。

由于所提出的技术能够在保持生成先验的同时很好地重建,我们的方法,即深度生成先验(Deep generate prior, DGP),很好地推广到各种图像恢复和操作任务,尽管我们的方法不是专门为每个任务设计的。当在任务相关的观测空间中重构被破坏的图像时,DGP倾向于恢复缺失的信息,同时保持已有的语义信息不变。如图1 (a)(b)©所示,分别很好地恢复了给定图像的颜色、缺失斑块和细节。如图1 (e)(f)所示,我们可以通过调整生成器的潜在代码或类别条件来操纵图像的内容。图1 (g)表明,通过在两个微调生成器的参数和这些图像对应的潜在代码之间插值,图像变形是可能的。据我们所知,这是第一次在ImageNet[22]这样复杂结构的图像上实现这些抖动和变形效果。我们在实验和补充材料中展示了更多有趣的例子。
本文在以下几个方面扩展了我们以前的会议版本[23]:1)它提供了更多的直观、可视化和解释,说明了我们的方法是如何工作的,以及它与以前工作的比较。2)它包含了更全面的实验结果,包括它在更多GAN架构[24],[25]上的应用,与最近的方法[26],[27]的比较,在新的数据集上的评估,以及更多的定性结果。3)提供了更多的技术细节和我们方法的分析。

2.相关工作

在这里插入图片描述

图2所示。利用GAN在灰度观测空间下重建灰度图像的各种方法的比较。传统的GAN反转策略(b)[15]和©[18])对现有语义产生不精确的重建。在这项工作中,我们放松了生成器,使其可以实时微调,实现更精确的重建,如(d)(e)(f),其中优化分别基于(d) VGG感知损失,(e)鉴别器特征匹配损失,(f)结合递进重建。我们强调鉴别器对于保留生成先验是很重要的,这样可以更好地恢复缺失的信息(即颜色)。建议的渐进策略消除了(e)中红框所示的“信息滞留”工件。

2.1.图像先验

图像先验在图像恢复和编辑中起着重要的作用。描述自然图像各种统计信息的先验在计算机视觉中得到了广泛的发展和应用,包括马尔可夫随机场[7]、[8]、[9]、暗通道先验[10]和全变分正则化[11]等。这些传统的手工制作的先验通常捕获某些统计数据,并服务于专门的目的。
近年来,深度图像先验(DIP)[12]的开创性工作表明,深度卷积神经网络的结构隐式捕获图像统计信息,这也可以用作恢复受损图像的先验。SinGAN[13]微调单个图像补丁上随机初始化的GAN,实现各种图像编辑或恢复效果。由于DIP和SinGAN是从零开始训练的,它们对输入图像之外的图像统计信息的访问有限,这限制了它们在图像着色等任务中的适用性。也有其他深度先验为低水平恢复任务开发,如深度去噪先验[28],[29],TNRD[30]和LCM[31],但与它们竞争不是我们的目标。相反,我们的目标是研究和开发在GAN中捕获的多用途恢复以及操作任务的先验。现有的使用预训练GAN作为图像统计来源的尝试包括[32]和[33],它们分别适用于图像处理,如编辑图像的部分区域,和图像恢复,如人脸的压缩感知和超分辨率。正如我们将在我们的实验中展示的,通过使用基于鉴别器的距离度量和渐进式微调策略,DGP可以更好地保存GAN学习到的图像统计信息,从而允许更丰富的恢复和操作效果。
最近,一种多码GAN先验[27]并行工作也通过解决GAN反演问题进行图像处理。该方法使用多个潜在码重建目标图像,并保持生成器不变,而我们的方法通过允许动态微调使生成器图像自适应。另一个并发工作PULSE[34]使用预先训练的StyleGAN实现了人脸的超分辨率。我们将展示我们的方法是任务不可知论的,并适用于更多样化的图像。

2.2.图像恢复和操作

在本文中,我们展示了将DGP应用于图像处理的多种任务的效果,包括图像着色[1]、图像修复[3]、超分辨率[4]、[5]、对抗防御[6]和语义操作[15]、[35]、[36]。为了在特定的恢复任务[1]、[2]、[3]、[4]、[5]、[6]、[37]上获得更好的性能,人们提出了许多特定任务的模型和损失函数,也有一些应用GAN,设计特定任务管道来实现[21]、[32]、[35]、[36]、[38]的各种图像处理效果,如CycleGAN[35]和StarGAN[36]。另一种工作是简单地采用GAN图像合成预训练来进行图像处理[15],[39],[40],[41],[42],[43],但仅限于GAN本身的合成图像或复杂性有限的真实图像,如人脸。
在这项工作中,我们感兴趣的是发现潜在的利用GAN先验作为一个任务不可知论的解决方案的真实复杂的图像,我们提出了几个技术来实现这一目标。此外,如图1(e)(g)所示,经过改进的重构过程,我们在ImageNet上成功实现了图像抖动和变形,而之前的方法不足以处理这些对如此复杂数据的影响。

2.3.GAN反演

利用生成先验的一种自然的方法是通过GAN反演进行图像重建。GAN反演的目的是在潜在空间中找到一个能最好地重建给定图像的向量,其中GAN生成器通常是固定的。以前的尝试包括通过梯度反向传播[16]、[17]直接优化潜在代码,利用额外的编码器将图像映射到潜在代码[44]、[45]或它们的混合方法[15]、[46]。Bau,[18]等人进一步提出在发电机的浅区块中加入小的扰动,以简化反演任务。虽然这些方法可以处理复杂性有限的数据集或GAN本身采样的合成图像,但我们在实验中经验地发现,对于复杂的真实场景,例如ImageNet[22]中的图像,它们可能会产生不精确的重建。最近,StyleGAN[24]的工作通过在松弛的中间潜在空间[26]、[46]中工作,为GAN反演提供了一种新方法,但仍观察到明显的不匹配,vanilla GAN(如BigGAN[47])的反演仍具有挑战性。在本文中,我们设计了一种更实用的方法来重建给定的图像,而不是直接使用标准的GAN反演,使用生成先验,这表明可以获得更好的重建结果。

3.方法

在讨论如何利用DGP进行图像恢复和操作之前,我们首先对DIP和GAN进行一些初步介绍。
深度图像先验
Ulyanov等人[12]表明,图像统计信息被CNN的结构隐式捕获。这些统计数据可以被视为一种图像先验,它可以被利用在各种图像恢复任务中,通过调整退化图像上随机初始化的CNN: θ= arg minθ E(xˆ, f(z;θ)), x= f(z;θ),其中E是任务相关的距离度量,z是随机抽样的潜在代码,f是一个以θ为参数的CNN。xˆ和x分别是退化的影像和恢复的影像。DIP的一个局限性是恢复过程主要依赖于输入图像中已有的统计信息,因此对于需要更一般统计信息的任务,如图像着色[1]、操作[15]等,无法使用DIP进行恢复
生成对抗网络(GANs)
GANs广泛用于自然图像[14]、[24]、[48]、[49]等复杂数据的建模。在GAN中,自然图像的底层流形是通过参数生成器G和先验潜在空间Z的组合来逼近的,因此可以通过从Z中采样潜在代码Z并将G应用为G(Z)来生成图像。GAN通过一个参数鉴别器D以一种对抗的方式联合训练G,其中D被认为可以区分生成的图像和真实的图像。虽然在提高GAN的功率方面已经做了大量的努力,但由于容量不足和模式崩溃等问题,GAN的近似流形与实际流形之间不可避免地存在差距。

3.1.深层生成图像先验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值