ICCV 2021 | High-Fidelity Pluralistic Image Completion with Transformers 阅读笔记(部分翻译)

该研究提出了一种结合Transformer和CNN的图像修复方法,用于高保真和多元化的图像补全。Transformer用于生成粗略的结构先验,而CNN则用于在低分辨率上采样中补充精细纹理,以实现与输入图像一致性的好结果。实验表明,该方法在多样性、保真度和处理大规模缺失区域方面优于现有技术。

High-Fidelity Pluralistic Image Completion with Transformers

作者:Ziyu Wan1^11 Jingbo Zhang1^11 Dongdong Chen2^22 Jing Liao1∗^{1*}1

单位:1^11City University of Hong Kong 2^22Microsoft Cloud + AI

会议:ICCV 2021

项目地址:raywzy.com/ICT

Abstract

由于CNN的一些固有属性(spatial-invariant kernels等),其不能做到很好的理解全局特征;最近transformer展示了其在long-term关系中的有效性,但是他们的计算复杂度是与输入长度成平方的,这妨碍了高分辨率图像的处理。概论提出了两个世界的最好组合去图像修复:使用transformer来实现重构先验,使用CNN来补充纹理。transformer恢复了粗糙的一致性结构,CNN在粗糙的先验基础上增强了局部纹理细节。(还可以得到多个不同的图像修复结果)

1. Introduction

CNN也存在一些固有的局限性:1)卷积运算的局部归纳先验使得对图像的全局结构建模困难;2) CNN滤波器具有空间不变性,即相同的卷积核对所有位置的特征进行操作,使得重叠的图案或模糊的伪影经常出现在masked区域。另一方面,CNN模型具有固有的确定性(指同样的输入只能有一个输出)。为了实现不同的修复输出,最近的一些框架[39,37]依赖于优化实例似然的变分下限(optimizing the variational lower bound of instance like-lihood)。然而,额外的分布假设将不可避免地损害生成内容[38]的质量。

Transformer,作为语言任务中探索得很好的架构,在许多计算机视觉任务中正在崛起。与CNN模型相比,它抛弃了局部归纳性先验(baked-in local inductive prior),通过dense注意力模块[31]来支持long-term interaction。使用transformer进行合成的另一个优点是,它通过直接优化底层数据分布可以自然地支持多元化输出。然而,transformer也有其自身的不足。由于其计算复杂度是输入长度的二次方,它在高分辨率图像合成或处理中遇到了困难。此外,现有的基于transformer的生成模型[24,5]大多是以自回归的方式工作的,即,按照固定的顺序合成像素,就像栅格扫描顺序一样,这就阻碍了它在图像修复任务中的应用,因为缺失区域的形状和大小往往是任意的

本文提出了好方法:Transformer的全局结构理解能力和多元支持能力,以及CNN模型的局部纹理细化能力和效率。为此,我们将图像补全分解为两个步骤:使用transformer进行多元外观先验重构以恢复相干图像结构,使用CNN进行低分辨率上采样以补充精细纹理。具体来说,给定一个缺失区域的输入图像,我们首先利用transformer来采样低分辨率的补全结果,即表象先验appearance priors。然后,在表象先验和输入图像可用像素的指导下,利用另一个上采样CNN模型对缺失区域进行高保真纹理渲染,同时保证与相邻像素的一致性。特别是,不像之前的自回归方法(5、30),为了使transformer模型能够通过考虑所有可用的上下文来补全丢失的区域,我们优化了基于双向条件(bi-directional conditions)的缺失像素的对数似然目标(we optimize the log-likelihood objective of missing pixels based on the bi-directional conditions),这是受masked的语言模型BERT所启发[9]。

1)与之前的只有一个输出的修复方法相比,我们的方法在各种指标上大大优于他们的方法;2)与以往的多元补全方法相比,我们的方法进一步提高了结果的多样性,同时实现了更高的补全保真度;3)由于transformer具有较强的结构建模能力,我们的方法在完成超大缺失区域和大型泛型数据集(如ImageNet)时,泛化效果更好,如图1所示。值得注意的是,与最先进的PIC[39]方法相比,ImageNet上的FID评分最多提高了41.2分。

2. Related Works

Visual Transformers Vaswaniet al.[31]首先提出了用于机器翻译的transformer。transformer的整体结构是由堆叠的自注意层和point-wise前馈层组成的编码器和解码器组成。但这些方法在生成图像时依赖于固定的排列顺序,不适用于填充形状不同的缺失区域。

Deterministic Image Completion 这些方法可以产生合理的修复结果,但是缺乏产生多样化结果的能力。

Pluralistic Image Completion 虽然他们在一定程度上取得了多样性,但由于variational训练,他们的修复质量受到了限制。与这些方法不同,我们直接通过transformer优化离散空间的对数似然,而不需要辅助假设。

3. Method


ImI_mIm是缺损图像,III是完整图像,p(I∣Im)p(I|I_m)p(IIm)是给定ImI_mImIII的条件分布;XXX是第一阶段粗糙的先验信息。这个公式推导的有点奇怪。。最后一行前半个是第一阶段的任务,后半个是第二阶段的任务。

3.1. Appearance Priors Reconstruction

Discretization 由于multi-head attention高昂的计算成本(quadratically increasing),我们使用了32×32或48×48分辨率的结构信息作为第一阶段的粗糙结果。尽管如此,RGB像素表示(2563256^3256

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值