[Paper] Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)
[Code]saic-mdal/lama
基于傅里叶卷积的分辨率稳健的大型掩码修复

现在的图像修复系统,尽管取得了重大进展,但经常与大面积缺失区域、复杂几何结构和高分辨率图像做斗争。我们发现造成这种情况的主要原因之一是修复网络和损失函数都缺乏有效的感受野。
为缓解这个问题,我们提出了一种称为大蒙版修复(LaMa)的新方法。LaMa基于:1)新的修复网络结构,该网络结构使用快速傅里叶卷积,具有图像范围的感受野;2)高感受野感知损失;3)大型训练掩码,它释放了前两个组件的潜力。我们的修复网络改进了一系列数据集的最新技术,即使在具有挑战性的场景中也能实现出色的性能,例如,完成周期性结构。我们的模型非常好地推广到比训练时看到的分辨率更高的分辨率,并以此竞争基线更低的参数和计算成本实现这一目标。
概述
图像修复问题的解决方案——真实填充缺失部分——既需要“理解”自然图像的大规模结构,也需要进行图像合成。该主题在前深度学习时代 [1, 5, 13] 进行了研究,近年来通过使用深度和宽神经网络 [26, 30, 25] 和对抗性学习 [34, 18, 56、44、57、32、54、61]。
通常的做法是在自动生成的大型数据集上训练修复系统,该数据集是通过随机屏蔽真实图像创建的。复杂的两阶段方法曾经是一种常见的做法,通常涉及中间预测(例如平滑图像 [27、54、61]、边缘 [32、48] 和分割图 [44])。在这项工作中,我们使用最简单的单级网络实现了最先进的结果。
大的有效感受野 [29] 对于理解图像的全局结构并因此解决修复问题至关重要。此外,在大掩码的情况下,即使大但有限的感受野可能不足以访问生成质量修复所需的信息。我们注意到流行的卷积架构可能缺乏足够大的有效感受野。我们仔细干预系统的每一个组件,以缓解问题并释放单阶段解决方案的潜力。具体来说:
1)我们提出了一种基于最近开发的快速傅立叶卷积 [4] 的修复网络。快速傅立叶卷积允许覆盖整个图像的图像范围的感受野,即使在网络的早期层也是如此。我们表明网络受益于感受野的快速增长,实现了更高的质量和参数效率。有趣的是,快速傅立叶卷积中的归纳偏差允许网络推广到训练期间从未见过的高分辨率(图 5、图 6)。这一发现带来了显着的实际好处,因为需要更少的训练数据和计算。
2)我们建议使用基于具有高感受野的语义分割网络的感知损失 [20]。这依赖于以下观察:感受野的缺乏不仅会影响修复网络,还会影响感知损失。损失促进了全局结构和形状的一致性。
3)我们引入了一种极简的训练掩码生成策略,以释放前两个组件的高感受野的潜力。该过程产生宽大的掩码,迫使网络充分利用模型的高感受野和损失函数。
这将我们引向大型掩码修复(LaMa)——一种新颖的单阶段图像修复系统。LaMa的主要组成部分是高感受野架构(1),具有高感受野损失函数(2),以及训练掩码生成的激进算法(3)。我们精心将LaMa与最先进的基线进行比较,并分析每个提议组件的影响。通过评估,我们法向LaMa仅在低分辨率数据上训练后可以推广到高分辨率图像。LaMa可以捕获并生成复杂的周期性结构,并且对大型掩码具有鲁棒性。此外,与竞争基线相比,这是通过显着减少可训练参数和计算成本来实现的。
方法
我们的目标是修复被未知像素 m m m 的二进制掩码掩蔽的彩色图像 x x x,掩蔽图像表示为 x ⨀ m x \bigodot m x⨀m。掩码 m m m与掩码图像 x ⨀ m x \bigodot m x⨀m堆叠,产生一个四通道输入张量$x’=stack( x ⨀ m x \bigodot m x⨀m, m)$。我们使用前馈修复网络 f θ ( ⋅ ) f_θ(·) fθ(⋅),我们也将其称为生成器。取 x ′ x' x′ ,修复网络以全卷积方式处理输入,并生成修复后的三通道彩色图像 x ^ = f θ ( x ′ ) \hat x = f_θ(x') x^=

本文介绍了一种名为LaMa的新型图像修复方法,它利用傅里叶卷积增强感受野,解决大尺寸缺失区域和复杂结构修复难题。通过高感受野网络、感知损失和激进的掩码生成策略,LaMa在保持高性能的同时,参数和计算成本远低于竞品,且能有效推广到高分辨率。
最低0.47元/天 解锁文章
1693

被折叠的 条评论
为什么被折叠?



