
论文:https://arxiv.org/abs/2204.08583
代码: GitHub - EleutherAI/vqgan-clip
摘要
从开放领域的文本提示中生成和编辑图像是一项具有挑战性的任务,到目前为止,需要昂贵的和经过专门训练的模型。我们为这两项任务展示了一种新的方法,它能够通过使用多模态编码器来指导图像的生成,从具有显著语义复杂性的文本提示中产生高视觉质量的图像,而无需任何训练。我们在各种任务上证明了使用CLIP来指导VQGAN产生的视觉质量比之前不太灵活的方法如minDALL-E、GLIDE和Open-Edit[26]更高。我们的代码可以在一个公共资源库中找到。
介绍
使用自由格式的文本来生成或操纵高质量的图像是一项具有挑战性的任务,需要在视觉和文本表征之间进行学习。在一个开放的领域背景下操纵图像是由开创性的Open-Edit首次提出的,它允许通过文本提示来改变图像的内容。这主要是通过语义上简单的转换(例如,把红苹果变成绿色)来完成的,不允许生成图像。不久之后,DALL-E和GLIDE被开发出来,它们都可以从任意的文本提示中进行生成(和绘画),但本身并不能实现图像操作。
在这项工作中,我们首次提出了语义图像生成和编辑的统一方法,利用预先训练的图像-文本联合编码器(本文指clip)来引导图像生成模型。我们的方法是通过使用多模态编码器来定义一个损失函数,评估(文本,图像)对的相似性,并反向传播到图像生成器的潜在空间。
我们迭代更新候选文本的生成,直到它与目标文本足够相似。使用我们的技术进行生成和编辑的区别仅仅是用特定的图像(用于编辑)或用随机噪声(用于生成)初始化生成器的问题。
我们的方法的一个显著优势是不需要额外的培训。只有一个预训练的图像生成器和一个图像-文本联合编码器是必要的,我们展示了几个重要的贡献,包括以下几点:
(1)对图像的生成和处理都有很高的视觉质量。
(2)文本和生成物之间的语义保真度高,特别是当语义上不可能的内容共同出现时。
(3)效率方面,我们的方法除了预训练的模型外,不需要额外的训练,每次推理只需要使用少量 的优化。
(4) 开放式开发和研究的价值。这项技术是公开开发的,开放合作是其在现实世界中迅速成功的 组成部分。非作者的人已经将我们的方法扩展到其他模式(如用音频代替文字)和商业应 用。
我们手稿的其余部分组织如下。在第2节中,我们讨论了我们的方法是如何工作的,从而形成了一个简单和容易应用的方法,用于组合多种模式的生成或操作。第3节展示了vqgan-clip在生成高质量和语义相关的图像方面的功效,随后在第4节展示了其卓越的操作能力。第5节通过消融验证了vqgan-clip在获得高质量图像和快速生成方面的设计选择,第6节讨论了资源使用和效率考虑。
由于我们的方法自2021年4月以来一直是公开的,我们能够在第7节展示外部团体的进一步验证。这种使用包括对其他模式的扩展,显示了我们方法的灵活性,以及对vqgan-clip的商业使用,证明其在处理开放域提示和图像方面的成功,达到了令人满意的程度。最后我们在第8节中得出结论。
我们的方法
为了证明我们方法的有效性,我们使用VQGAN和CLIP作为预训练的模型来应用它,因此将我们的方法称为vqgan-clip。然而,我们强调,我们的方法并不是专门针对这两种模型的,随后的工作已经显示出成功,在我们的工作基础上使用其他模型,甚至其他模式。
我们从一个文本提示开始,使用GAN来迭代生成候选图像,每一步都使用CLIP来改进图像。我们通过把候选的嵌入和文本提示的嵌入之间的squared spherical distance作为损失函数来优化图像,并通过CLIP对GAN的图像的潜在向量表示进行区分,我们按照Oord、Vinyals和Kavukcuoglu将其称为 "Z-向量"。这个过程概述于图。

图1:图中显示了如何增加增量以稳定和改善优化。通过多种裁剪,每次生成图像都经过不同的随机增强应用于产生一个single source g

提出vqgan-clip方法,实现高质量图像生成与编辑,无需额外训练,且在语义复杂性方面超越现有技术。
最低0.47元/天 解锁文章
928

被折叠的 条评论
为什么被折叠?



