SAM微调fine-tune/PEFT系列论文整理

原创已于 2025-05-15 13:35:19 修改 · 2k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #分割 #SAM #通用模型 #PEFT #高效微调

于 2025-05-15 12:24:49 首次发布

计算机视觉同时被 2 个专栏收录

12 篇文章

订阅专栏

通用模型

7 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

文章目录

SAM原作参考SAM解读
SAM系列论文梳理SAM论文梳理

SAM分割一切（论文解析）提出了新的任务、模型、数据集，实现了很好的通用分割能力，但对一些细分领域的数据适配仍然不是很好，因此需要进行微调，本篇重点整理一下与SAM微调相关的工作。

由于SAM是通用分割模型，在微调时通常要保留其强大的通用能力不被破坏，所以几乎所有论文微调方式与目前的大模型高效微调方式思路一致，主要采用lora、adapter等技术
部分博客通过仅微调mask decoder实现领域数据适配

SAM主要由image encoder、prompt encoder、mask decoder三部分组成，因此在微调的时候也主要是围绕这3部分进行相关工作。
在这里插入图片描述

peft-sam: Parameter Efficient Fine-Tuning of Segment Anything Models - 在生物医学成像领域为SAM实现了几种参数高效微调（PEFT）方法

paper:https://arxiv.org/abs/2502.00418
code:https://github.com/computational-cell-analytics/peft-sam

Lightning Segment-Anything Model（2023） - 仅代码，需要看代码确定其微调的具体是如何实现的

code:https://github.com/luca-medeiros/lightning-sam

只支持标注框promt

该库允许你针对自定义的COCO格式数据集，对MetaAI强大的Segment-Anything模型进行微调。该库基于Lightning AI的Fabric框架构建，为实现最先进的实例分割结果提供了高效且易于使用的实现方式。
这个代码库是一次实验；是一个概念验证，旨在探究使用边界框作为提示来微调SAM，是否能总体上提高交并比（IoU）或改善掩码的质量。用户可以使用COCO格式的数据集，针对SAM表现不佳的特定任务（例如，分割文档上的文本）对SAM进行微调，然后像使用SAM一样，结合交互式提示使用该模型。

SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and More（2023） - 通过Adapter实现微调，不需要标注prompt

但项目中提示显存可能占用很大，需准备好资源……

code:https://github.com/tianrun-chen/SAM-Adapter-PyTorch
SAM在某些分割任务中可能会失败或表现不佳，例如阴影检测和伪装物体检测（隐蔽物体检测）。本研究首次为将大型预训练图像分割模型SAM应用于这些下游任务铺平了道路，即使在SAM表现不佳的情况下也是如此。我们没有对SAM网络进行微调，而是提出了SAM - Adapter，它通过使用简单而有效的适配器，将特定领域信息或视觉提示融入到分割网络中。通过将特定任务知识与大模型学到的通用知识相结合，如大量实验所示，SAM - 适配器可以显著提升SAM在具有挑战性任务中的性能。我们甚至超越了特定任务的网络模型，并在我们测试的任务（伪装物体检测、阴影检测）中取得了最先进的性能。我们还测试了息肉分割（医学图像分割），并取得了更好的结果。我们相信，我们的工作为在下游任务中利用SAM开辟了机会，其在包括医学图像处理、农业、遥感等各个领域都有潜在应用。

Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation（2023）- 通过adapter实现医学数据微调，需要prompt标注

paper:https://arxiv.org/pdf/2304.12620
code:https://github.com/SuperMedIntel/Medical-SAM-Adapter，支持SAM/mobileSAM/EfficientSAM

由于缺乏特定的医学领域知识，SAM在医学图像分割任务中表现欠佳。这引发了如何提升SAM对医学图像分割能力的问题。本文提出了医学SAM适配器（Med-SA），通过轻量而高效的适配技术将特定领域的医学知识融入分割模型。在Med-SA中，我们设计了空间深度转置模块（SD-Trans）以将2D SAM适配于3D医学图像，并提出超提示适配器（HyP-Adpt）实现提示条件下的适配。我们在17项跨多种成像模态的医学图像分割任务上进行了全面评估实验，结果表明Med-SA在仅更新2%模型参数的情况下，性能超越了多个最先进的（SOTA）医学图像分割方法。

finetune-anything(2023)- 支持较高程度的定制化，可以自定义不同位置是否使用adapter

code:https://github.com/ziqi-jin/finetune-anything
分割一切模型（SAM）彻底改变了计算机视觉领域。依靠对SAM的微调将解决大量基础计算机视觉任务。我们正在设计一个基于SAM的用于训练微调模型的类别感知单阶段工具。
你需要提供任务所需的数据集以及支持的任务名称，此工具将帮助你获得针对任务的微调模型。你也可以设计自己的扩展SAM模型，FA将为你提供训练、测试和部署流程。

Customized Segment Anything Model for Medical Image Segmentation（2023）- 通过lora实现医学数据的微调，且是无提示的自动语义分割，不需要标注prompt，但也丢失了SAM的交互能力

paper:https://arxiv.org/pdf/2304.13785
code:https://github.com/hitachinsk/SAMed

我们提出了SAMed，这是一种用于医学图像分割的通用解决方案。与以往方法不同，SAMed基于大规模图像分割模型“分割一切模型”（Segment Anything Model，简称SAM）构建，旨在探索为医学图像分割定制大规模模型的新研究范式。SAMed将基于低秩的（LoRA）微调策略应用于SAM图像编码器，并在有标注的医学图像分割数据集上，与提示编码器和掩码解码器一起对其进行微调。我们还观察到，预热微调策略和AdamW优化器使SAMed成功收敛并降低了损失。与SAM不同，SAMed可以对医学图像执行语义分割。我们训练的SAMed模型在Synapse多器官分割数据集上达到了81.88的DSC（Dice相似系数）和20.64的HD（Hausdorff距离），与当前最先进的方法相当。我们进行了大量实验来验证我们设计的有效性。由于SAMed只更新了SAM参数的一小部分，在实际应用中，其部署成本和存储成本相当低。
在这里插入图片描述

[NIPS2023] HQ-SAM:Segment Anything in High Quality - 增加额外的token调整生成的mask

苏黎世联邦理工、香港科技大学
paper:https://arxiv.org/abs/2306.01567
code:https://github.com/SysCV/sam-hq

尽管SAM在训练时使用了11亿个掩码，但在许多情况下，其掩码预测质量仍存在不足，尤其是在处理结构复杂的物体时。我们提出了HQ-SAM，在保留SAM原有的可提示设计、效率和零样本泛化能力的同时，赋予其精确分割任意物体的能力。我们的设计精心复用并保留了SAM的预训练模型权重，仅引入了极少的额外参数和计算量。我们设计了一个可学习的高质量输出token，将其注入SAM的掩码解码器中，专门负责预测高质量掩码。不同于仅在掩码解码器特征上应用，我们首先将这些特征与视觉Transformer（ViT）的早期和最终特征进行融合，以改善掩码细节。为了训练我们引入的可学习参数，我们从多个来源构建了包含4.4万个细粒度掩码的数据集。HQ-SAM仅在这个包含4.4万掩码的数据集上进行训练，使用8块GPU仅需4小时。我们在10个不同的下游任务分割数据集上验证了HQ-SAM的有效性，其中8个数据集通过零样本迁移协议进行评估。

[ICME2024]PA-SAM: Prompt Adapter SAM for High-quality Image Segmentation - 通过Adapter微调

paper:https://arxiv.org/abs/2401.13051
code:https://github.com/xzz2/pa-sam

我们将一种新颖的提示驱动适配器引入到SAM中，即提示适配器分割一切模型（PA - SAM），旨在提升原始SAM的分割掩码质量。通过仅对提示适配器进行训练，PA - SAM从图像中提取详细信息，并在稀疏和密集提示层面优化掩码解码器特征，从而提高SAM的分割性能以生成高质量掩码。实验结果表明，我们的PA - SAM在高质量、零样本和开放集分割方面优于其他基于SAM的方法。

参考：
https://zhuanlan.zhihu.com/p/622677489
https://encord.com/blog/learn-how-to-fine-tune-the-segment-anything-model-sam/
https://zhuanlan.zhihu.com/p/627098441

您可能感兴趣的与本文相关的镜像