SAM功能改进Per-SAM论文解读PERSONALIZE SEGMENT ANYTHING MODEL WITHONE SHOT

现已总结SAM多方面相关的论文解读,具体请参考该专栏的置顶目录篇

一、总结

1. 简介

发表时间:2023年10月4日

论文:

2305.03048.pdf (arxiv.org)https://arxiv.org/pdf/2305.03048.pdf代码:

ZrrSkywalker/Personalize-SAM: Personalize Segment Anything Model (SAM) with 1 shot in 10 seconds (github.com)https://github.com/ZrrSkywalker/Personalize-SAM

2. 摘要

        在大数据预训练的推动下,任意分割模型(SAM)作为一个强大的提示框架已经被证明是一场切分领域的革命。尽管SAM具有通用性,但在没有人工提示的情况下为特定的视觉概念定制SAM还没有得到充分的探索,例如,在众多图像中自动分割您的宠物狗。
        在本文中,我们为SAM引入了一种无需培训的个性化方法,称为PerSAM。对于单镜头数据,即带有参考掩码的单幅图像,我们首先在新图像中获得目标概念的正负位置。然后,在目标视觉语义的帮助下,我们通过两种提出的技术:目标引导注意和目标语义提示,赋予SAM个性化的目标分割能力。通过这种方式,我们可以有效地定制通用SAM以供私人使用,而无需任何培训。为了进一步缓解分割尺度的模糊性,我们提出了一种高效的一次性微调变体,即PerSAM-F。冻结整个SAM,我们引入了一个规模感知的微调来聚合多尺度掩模,它只在10秒内调整2个参数以提高性能。为了证明我们的有效性,我们构建了一个新的数据集PerSeg来评估个性化目标分割,并在各种单镜头图像和视频分割基准上测试了我们的方法。
        此外,我们建议利用PerSAM来改进DreamBooth,以实现个性化的文本到图像合成。通过减少训练集背景的干扰,我们的方法显示了更好的目标外观生成和更高的输入文本提示的保真度。

3. 引言

        SAM失去了分割特定视觉概念的能力,在处理复杂场景时,使用普通的SAM将是高度劳动密集型和耗时的。对于每个图像,必须在复杂的上下文中精确地找到目标对象,然后用适当的分割提示激活SAM。因此本文提出针对SAM的无需训练的个性化方法PerSAM,它能以简单有效的方式自动分割用户指定的视觉概念。如下图所示,只使用一次性数据(即用户提供的参考图像和个人概念的粗略掩码),引入两种有效的解决方案:无训练的PerSAM和微调的PerSAM- F。

首先通过特征相似性得到测试图像中目标物体的位置置信度图,该置信度图考虑了每个前景像素的外观。根据置信度得分,选择两个点作为正负位置先验,最后将其编码为提示令牌,输入到SAM的解码器中进行分割。在解码器中,我们提出通过两种技术注入目标对象的视觉语义来释放SAM的个性化分割能力。

Target-guided关注。我们通过位置置信度图来引导SAM解码器中的每个令牌到图像的交叉注意层。这显式地迫使提示令牌主要集中在前景目标区域,以进行密集的特征聚合。

•目标语义提示。为了显式地为SAM提供高级目标语义,我们将原始提示符号与目标对象的嵌入融合在一起,这为个性化分割提供了具有附加视觉线索的低级位置提示。

通过上述设计,以及级联的后期细化,PerSAM在各种姿势或场景中为独特的主体展示了良好的个性化分割性能。值得注意的是,我们的方法可以很好地处理需要在多个相似对象中分割一个对象的场景,同时在同一图像中分割几个相同的对象,或者沿着视频跟踪不同的对象。然而,如图2所示,可能偶尔会出现失败情况,其中对象包括视觉上不同的子部件或要分割的分层结构,例如,泰迪熊顶部的帽子,或机器人玩具的头部。由于局部形状和全局形状都可以被SAM视为有效的掩码,因此这种模糊性给SAM确定合适的掩码输出带来了挑战。

为了缓解这个问题,我们进一步提出了我们方法的一个微调变体,即PerSAM-F。我们冻结了整个SAM,以保留其多才多艺的预训练知识,并且在单个A100 GPU上仅在10秒内微调2个参数。具体来说,我们使SAM能够产生几种不同掩码尺度的潜在分割结果。为了自适应地选择不同对象的最佳尺度,我们为每个遮罩尺度使用可学习的相对权重,并进行加权求和作为最终输出。通过这种高效的尺度感知训练,PerSAM-F避免了对单次数据的过拟合,呈现出更好的分割精度,如图2(右)所示。

此外,我们观察到我们的方法还可以帮助DreamBooth (Ruiz et al, 2022)更好地微调扩散模型,以实现个性化的文本到图像生成,如图3所示。给定一些包含特定视觉概念的图像,例如,你的宠物猫或背包,DreamBooth学会将这些图像转换为单词嵌入空间中的标识符[V],然而,它可以同时包含背景信息,例如,楼梯或森林。这将覆盖新提示的背景,并干扰目标外观的生成。因此,我们建议利用PerSAM在训练图像中分割目标对象,并且仅通过前景区域监督DreamBooth,从而实现更高质量的文本到图像的合成。

从另一个角度来看,我们提出了针对特定视觉概念的个性化分割基础模型,即SAM,它可以使通才变成专家,只需要一个镜头。我们的方法还可以辅助文本到图像基础模型的个性化,即Stable Diffusion和Imagen,通过从背景干扰中分割前景目标物体来提高生成质量。

在下游任务上直接调优整个基础模型可能会导致计算成本和内存密集型,对资源受限的应用程序提出了挑战。为了解决这个问题,最近的工作集中在开发参数高效方法。与现有工作不同的是,我们采用了一种为SAM精心设计的更高效的自适应方法,即仅用2个参数和10秒对PerSAM-F进行尺度感知微调。有效避免了单次数据的过拟合问题,缓解了分割尺度的模糊性,性能优越。

4. 贡献

(1)个性化对象分割:我们首先研究了如何以最小的费用将通用分割模型(SAM)定制为个性化的场景。为此,我们引入了两种高效的方法,以及一个新的分割数据集PerSeg,用于评估个性化目标分割。
(2)PerSAM和PerSAM-F:在该模型中,我们提出了三种无需训练的技术,通过目标对象的高级语义来指导SAM。在PerSAM-F中,我们设计了一个10秒内2个参数的尺度感知微调,以很好地缓解掩模模糊问题。
(3)在各种任务上取得了有竞争力的结果:包括PerSeg基准测试、一次性零件和语义分割以及视频对象分割。此外,PerSAM还可以增强DreamBooth,以实现更好的个性化文本到图像的合成。

二、模型结构

        首先简要回顾Segment Anything Model (SAM),并介绍个性化对象分割的任务定义。然后说明了PerSAM和PerSAM- F方法。最后利用我们的方法帮助DreamBooth更好地生成文本到图像。

1 个性化对象分割

        为了解决SAM 缺乏自动分割特定对象实例的能力,本文提出了个性化对象分割的新任务,以便在任何姿势或场景中分割用户提供的对象。在这个任务中,用户提供一个单张参考图像和指示目标视觉概念的掩码。这个掩码可以是精确的分割结果,也可以是随手画的粗略草图。目标是定制 SAM,使其能够在不额外进行人工提示的情况下,在新的图像或视频中分割指定的对象。
        为了评估这一任务,作者创建了PerSeg数据集,用于评估个性化对象分割。PerSeg数据集收集了来自主题驱动的扩散模型工作的图像,包含不同姿势或场景中的各种类别的视觉概念。每个对象与5到7张图像和掩码相关联,其中一张图像-掩码对被固定为用户提供的单次数据。

2. 无需训练的PerSAM

       PerSAM 方法通过下面技术,无需任何训练,能够有效地定制SAM以实现特定目标对象的个性化分割。这使得用户能够在不同的姿势或场景中对独特的主题进行分割,同时处理需要在同一图像中分割多个相似对象或跟踪视频中不同对象的场景。
(1)位置置信度图(Location Confidence Map)
        利用用户提供的单张图像和掩码,PerSAM 首先获得一个新的测试图像中目标对象的位置置信度图。
        通过图像编码器提取参考图像和测试图像的视觉特征,然后使用参考掩码从参考图像特征中裁剪出前景像素的特征。
        通过计算测试图像特征与这些局部特征之间的余弦相似度,生成一系列局部置信度图,并通过平均池化聚合这些局部图来获得目标对象的整体置信度图。
(2)正负位置先验(Positive-negative Location Prior)
        在整体置信度图中,选择最高和最低置信度值的点作为正负位置先验,这些点作为点提示被输入到提示编码器中,形成提示令牌供 SAM 的解码器使用。

(3)目标引导注意力(Target-guided Attention)
        为了在 SAM 的解码器中提供更明确的目标语义指导,提出了目标引导注意力机制,该机制通过整体置信度图来引导解码器中的每个 token-to-image 交叉注意力层,从而使特征聚合更集中于前景目标区域。

(4)目标语义提示(Target-semantic Prompting)
        
为了给 SAM 的解码器提供更高层次的提示,提出了利用目标对象的视觉特征作为额外的高层次语义提示。
        通过平均池化不同的局部特征来获得参考图像中对象的全局嵌入,然后将这个全局嵌入与测试图像的输入 token 相结合,形成被目标语义引导的输入 token,这些 token 被输入到解码器中。
(5)级联后处理(Cascaded Post-refinement)
        
初始分割掩码可能包含粗糙边缘和孤立的背景噪声,通过将掩码反馈到解码器进行两步后处理来进一步细化分割结果。
        第一步,使用当前预测的掩码和之前的正负点提示来提示解码器。
        第二步,获取第一步中掩码的边界框,并使用这个框来提示解码器,以实现更精确的对象定位。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值