Lama：《Resolution-robust Large Mask Inpainting with Fourier Convolutions》解读及实操

最新推荐文章于 2025-11-01 20:53:19 发布

原创

最新推荐文章于 2025-11-01 20:53:19 发布 · 2.8k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #人工智能

介绍Lama模型在图像修复领域的应用，采用快速傅立叶卷积扩大感受野，针对大面积损伤图像进行有效修复。

最近任务需求跟图像inpainting相关，因此调研使用了多个较新的开源模型，例如crfill、RePaint、Lama等。综合比较之下Lama的速度、效果都是最佳的，并且支持自定义输入尺寸进行推理（而非必须固定输入尺寸）。因此结合Lama论文进行实操，记录如下。
在这里插入图片描述

一、总体方法 & 创新点
1、总体方法流程：
对于输入原图 x ，使用一个二进制掩膜 m 进行遮罩 x ⊙ m ，形成一个四通道的输入tensor ：
x′ = stack(x ⊙ m, m)
再使用一个前向infer网络fθ(·)（也是一个生成器），以全卷积方式修复获得一个三通道彩色图像。
训练过程也是基于“图像与掩膜”这样的pair数据进行的。
2、创新点：
1）旧有方法都不具备足够广泛的感受野，因此对于大分辨率的图像或是大范围的inpainting而言，很容易会被局部附近的细节或干脆是mask所影响导致效果差。因此Lama考虑让模型在网络初始阶段就拥有更大的感受野，提出了基于快速傅立叶卷积（FFC）构造的网络结构。
2）损失函数：利用预训练分割网络进行特征提取实现损失函数构建，服务于大感受野和大掩膜
3）mask生成方法：动态的生成大掩膜，实现类似数据增强的效果

二、具体方法
1、Baseline：
图像与掩膜组成pair对输入网络并经过下采样后，进入FFC残差块。
在FFC块中，输入tensor被划分为两个分支进行运算。Local分支使用常规卷积；Global分支使用Real FFT进行全局上下文关注。其中在Global分支中经历了Real FFT2d和Inverse Real FFT2d的操作，实现了图像重建，具体张量变化看见论文2.1中的a)、 b)、c)。在FFC的输出中两分支进行结果合并。

最低0.47元/天解锁文章