最近任务需求跟图像inpainting相关,因此调研使用了多个较新的开源模型,例如crfill、RePaint、Lama等。综合比较之下Lama的速度、效果都是最佳的,并且支持自定义输入尺寸进行推理(而非必须固定输入尺寸)。因此结合Lama论文进行实操,记录如下。

一、总体方法 & 创新点
1、总体方法流程:
对于输入原图 x ,使用一个二进制掩膜 m 进行遮罩 x ⊙ m ,形成一个四通道的输入tensor :
x′ = stack(x ⊙ m, m)
再使用一个前向infer网络fθ(·)(也是一个生成器),以全卷积方式修复获得一个三通道彩色图像。
训练过程也是基于“图像与掩膜”这样的pair数据进行的。
2、创新点:
1)旧有方法都不具备足够广泛的感受野,因此对于大分辨率的图像或是大范围的inpainting而言,很容易会被局部附近的细节或干脆是mask所影响导致效果差。因此Lama考虑让模型在网络初始阶段就拥有更大的感受野,提出了基于快速傅立叶卷积(FFC)构造的网络结构。
2)损失函数:利用预训练分割网络进行特征提取实现损失函数构建,服务于大感受野和大掩膜
3)mask生成方法:动态的生成大掩膜,实现类似数据增强的效果
二、具体方法
1、Baseline:
图像与掩膜组成pair对输入网络并经过下采样后,进入FFC残差块。
在FFC块中,输入tensor被划分为两个分支进行运算。Local分支使用常规卷积;Global分支使用Real FFT进行全局上下文关注。其中在Global分支中经历了Real FFT2d和Inverse Real FFT2d的操作,实现了图像重建,具体张量变化看见论文2.1中的a)、 b)、c)。在FFC的输出中两分支进行结果合并。

介绍Lama模型在图像修复领域的应用,采用快速傅立叶卷积扩大感受野,针对大面积损伤图像进行有效修复。
最低0.47元/天 解锁文章
1732

被折叠的 条评论
为什么被折叠?



