计算机视觉：替换万物Inpaint Anything

移除任何物体：用户可以点击一个物体，IA将移除它并用上下文平滑填补"空洞"；
填充任何内容：在移除某些物体后，用户可以提供基于文本的提示给IA，然后它将通过驱动稳定扩散（Stable Diffusion）[11]等AIGC模型来填充空洞与相应的生成内容；
替换任何背景：借助IA，用户可以选择保留点击选择的物体并用新生成的场景替换其余背景。

论文：https://arxiv.org/pdf/2304.06790.pdf

代码：https://github.com/geekyutao/Inpaint-Anything

1.1 为什么我们需要Inpaint Anything

最先进的图像修复方法，如LaMa 、Repaint、MAT、ZITS等，在修复大区域和处理复杂重复结构方面取得了巨大进展。它们可以成功地对高分辨率图像进行修复，并且通常可以很好地推广到其他图像。然而，它们通常需要每个掩膜的精细注释，这对于训练和推断是必不可少的。
Segment Anything Model (SAM)是一个强大的分割基础模型，可以根据输入提示（如点或框）生成高质量的对象遮罩，并且可以为图像中的所有对象生成全面准确的遮罩。然而，它们的遮罩分割预测尚未充分探索。
此外，现有的修复方法只能使用上下文来填充已移除的区域。AIGC模型为创作开辟了新的机会，这有潜力满足大量需求，并帮助人们生成所需的内容。
因此，通过结合SAM、最先进的图像修复器LaMa和AI生成的内容（AIGC）模型的优势，我们提供了一个强大且用户友好的流程，用于解决更多通用的与修复相关的问题，例如对象移除、新内容填充和背景替换。

1.2 Inpaint Anything工作原理

Inpaint Anything结合了 SAM、图像修补模型（例如 LaMa）和 AIGC 模型（例如 Stable Diffusion）等视觉基础模型。

SAM（Segment Anything Model）可以通过点或框等输入提示生成高质量的对象分割区域，实现指定目标的分割。
图像修补模型LaMa，则能够在高分辨率图像的情况下，随意删除图像中的各种元素。模型的主要架构如下图所示。包含一个mask的黑白图，一张原始图像。将掩码图覆盖图像后输入Inpainting网络中，先是降采样到低分辨率，再经过几个快速傅里叶卷积FFC残差块，最后输出上采样，生成了一张高分辨的修复图像。

AIGC模型Stable Diffusion，则只要简单的输入一段文本，Stable Diffusion 就可以迅速将其转换为图像。

将三个模型结合到一起，我们可以做出很多的功能。本文就实现了在图片/视频中移除一切物体、在图片中填充一切物体和在图片中替换一切背景这三种功能，其具体实现步骤如下：

1.3 Inpaint Anything的功能是什么

使用SAM + SOTA修复器移除任意对象：通过IA，用户可以通过简单地点击对象来轻松地从界面中删除特定对象。此外，IA还提供了一个选项，让用户可以使用上下文数据填充生成的"空洞"。针对此需求，我们结合了SAM和一些最先进的修复器（如LaMa）的优势。通过腐蚀和膨胀的手动细化，由SAM生成的掩膜预测作为修复模型的输入，为要擦除和填充的对象区域提供清晰的指示。
使用SAM + AIGC模型填充或替换任意内容：

(1) 在移除对象后，IA提供了两种选项来填充生成的"空洞"，即使用上下文数据或"新内容"。具体而言，我们利用类似Stable Diffusion [11]的强大AI生成内容（AIGC）模型通过文本提示来生成新对象。例如，用户可以使用"dog"这个词或者"一只可爱的狗，坐在长凳上"这样的句子来生成一只新的狗来填充空洞。

(2) 此外，用户还可以选择在保留点击选择的对象的同时，用新生成的场景替换剩余的背景。IA支持多种方式来提示AIGC模型，例如使用不同的图像作为视觉提示或使用简短的标题作为文本提示。例如，用户可以保留图像中的狗，但将原来的室内背景替换为室外背景。