SAM模型论文讲解
文章平均质量分 94
分割一切大模型相关论文讲解
sunshineine
在读女博士一枚,主攻视觉大模型、图像生成、图像分割等领域
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SAM轻量化改进目录篇:FastSAM,MobileSAM,EfficientSAMs,RepViT-SAM,EdgeSAM,EfficientViT-SAM,SAM-Lightening
2023年4月6号,Meta AI公开了Segment Anything Model(SAM),使用了有史以来最大的分割数据集Segment Anything 1-Billion mask dataset(SA-1B),其内包含了1100万张图像,总计超过10亿张掩码图,模型在训练时被设计为交互性的可提示模型,因此可以通过零样本学习转移到新的图像分布和任务中。后续将更新补充还未发表的其他文章,还会更新如何在这六个模型中训练自己的数据集,感兴趣的同学点关注,将持续更新。原创 2024-01-31 15:59:44 · 4655 阅读 · 3 评论
-
SAM提示总结
应用场景:(1)分割多个相似物体中的一个对象(2)同时分割同一图像中的多个相同物体(3)沿视频跟踪不同的物体SAM模型:(1)SAM的能力。即对于每一幅图像,都需要在复杂的场景中准确地找到目标物体,然后使用适当的提示激活 SAM 进行分割。原创 2025-03-20 13:26:47 · 1302 阅读 · 0 评论 -
SAM掩码质量总结
应用场景:特别是对于自动注释和图像/视频编辑任务,其中高度准确的图像掩码至关重要。SAM模型:(1)预测不正确,mask破损(2)粗糙的掩码边界(3)SA-1B数据集会带来巨大的成本影响,并且无法实现我们工作中所追求的高质量掩码。原创 2025-03-20 13:18:34 · 1295 阅读 · 0 评论 -
SAM功能改进Per-SAM论文解读PERSONALIZE SEGMENT ANYTHING MODEL WITHONE SHOT
发表时间:2023年10月4日论文:代码:在大数据预训练的推动下,任意分割模型(SAM)作为一个强大的提示框架已经被证明是一场切分领域的革命。尽管SAM具有通用性,但在没有人工提示的情况下为特定的视觉概念定制SAM还没有得到充分的探索,例如,在众多图像中自动分割您的宠物狗。在本文中,我们为SAM引入了一种无需培训的个性化方法,称为PerSAM。对于单镜头数据,即带有参考掩码的单幅图像,我们首先在新图像中获得目标概念的正负位置。原创 2025-03-20 13:19:06 · 801 阅读 · 0 评论 -
SAM多目标跟踪与分割SAM-PT论文解读Segment Anything Meets Point Tracking
现有的关于视频注释的方法大多数侧重于掩码注释和传播,这大大降低了标注的效率和模型的泛化性。本文提出的SAM-PT是:通过结合SAM的图像分割功能和PT的点跟踪功能,引入了一种以点为中心的交互式视频分割方法。它使用稀疏点传播实现了对用户查询点的有效跟踪。与传统的以对象为中心的掩码传播策略相比,本文使用点传播以利用与对象语义无关的局部结构信息。实验结果表明,基于点的分割跟踪器能够实现更好的零样本性能和高效的交互,SAM-PT在视频分割任务中取得了很强的性能,包括半监督、开放世界和全交互式视频分割。原创 2025-03-20 13:20:40 · 1093 阅读 · 0 评论 -
ASLSEG: ADAPTING SAM IN THE LOOP FOR SEMI-SUPERVISED LIVER TUMOR SEGMENTATION
应用场景:医学成像任务,如心脏磁共振成像(cMRI)的短轴视图分割,可能需要模型对特定结构有更精细的识别和分割能力。SAM模型:尽管SAM在一般图像分割任务上表现出色,但在医学成像领域,特别是需要精细结构分割或精确边界划分的任务上,SAM可能面临挑战。原创 2025-03-20 13:24:02 · 476 阅读 · 0 评论 -
SAM轻量化应用Auto-SAM、Group-Mix SAM、RAP-SAM、STLM
知识蒸馏(Knowledge Distillation)是一种模型压缩技术,用小型的学生模型(student model)学习模仿大型的教师模型(teacher model)的行为,提高小型模型的性能,使其在推理时的性能更接近于大型模型。在实际应用中,尤其是在资源受限的环境下,模型需要有较高的效率,能够实时处理数据并快速给出检测结果,即需要较少的计算资源和时间,模型的复杂性和内存占用也是一个重要考虑因素。,该模块将从先前的图像编码器中提取的特征图作为输入,并自动学习以下掩码编码器所需的提示。原创 2024-05-09 12:33:27 · 2195 阅读 · 0 评论 -
SAM功能改进VRP-SAM论文解读VRP-SAM: SAM with Visual Reference Prompt
发表时间:2024年3月30日论文:代码:在本文中,我们提出了VRP-SAM,通过集成视觉参考提示(VRP)编码器实现了SAM框架的创新扩展。这个附加功能使SAM能够利用视觉参考提示进行引导分割。核心方法包括通过VRP编码器编码带注释的参考图像,然后与目标图像交互,在SAM框架内生成有意义的分割提示,对目标图像中的特定对象进行分割。VRP编码器可以支持各种参考图像的注释格式,包括点、框、涂鸦和掩码。它克服了SAM现有提示格式的限制,特别是在复杂场景和大型数据集中。原创 2024-04-10 10:06:02 · 2607 阅读 · 1 评论 -
SAM掩码质量改进PA-SAM论文解读PA-SAM: Prompt Adapter SAM for High-QualityImage Segmentation
1. 简介发表时间:2024年1月23日论文:代码:SAM在许多场景下,特别是在现实世界中,在掩码预测质量方面面临着挑战。本文提出了一种新的提示驱动的SAM适配器,开发了一个高质量分割网络PA-SAM,旨在提高原始SAM的分割掩码质量。PA-SAM冻结SAM组件,只需要对提示适配器进行微调,从而在生成高质量分割图的同时保留了原始SAM强大的对象定位能力。提示适配器进行了自适应细节增强和硬点挖掘,它通过从图像中挖掘详细信息来优化稀疏提示和密集提示。原创 2024-04-01 21:24:28 · 2738 阅读 · 1 评论 -
SAM轻量化改进SAM-Lightening论文解读SAM-LIGHTENING: A LIGHTWEIGHT SEGMENT ANYTHING MODEL WITHIN DILATED FLASH
由于SAM低推理速度和高计算内存需求,SAM在实际应用中的广泛应用受到了限制,这主要源自注意力机制。现有工作集中在优化编码器上,然而尚未充分解决注意力机制本身的低效率问题,即使是在将其蒸馏到较小的模型时,这也为进一步改进留下了空间。为此,SAM-Lightening对SAM中图像编码器的重新设计,通过将自注意力操作符蒸馏成具有动态层次蒸馏的Dilated Flash Attention。它不仅促进了更高的并行性,增强了处理效率,而且还保留了与现有的Flash Attention的兼容性。原创 2024-03-19 18:06:43 · 4307 阅读 · 1 评论 -
SAM多目标跟踪与分割SAM-track论文解读Segment and Track Anything
作者提出了一种支持多模态交互的统一视频分割模型SAM-Track,SAM-Track具有出色的跟踪和分割能力以及两种用户友好的交互模式,以适应不同应用的不同需求。对于跟踪和分割能力,SAM-Track将交互式关键帧分割模型(SAM)与作者提出的基于AOT的跟踪模型(DeAOT)结合在一起,利用高效的DeAOT跟踪模式,SAM-Track可以快速跟踪多个目标速度。还集成了,这使得该框架能够支持基于文本的交互。对于交互模式。原创 2024-03-05 11:30:09 · 3906 阅读 · 0 评论 -
SAM多目标跟踪与分割TAM论文解读Track Anything: Segment Anything Meets Videos
SAM图像分割能力强,与不同提示的交互性高,但它在视频的一致性分割方面表现不佳。因此,作者提出了跟踪任何模型TAM,它实现了视频中的高性能交互式跟踪和分割。具体来说,给定一个视频序列,只需很少的人为参与,即几次点击,人们就可以跟踪他们感兴趣的任何东西,并在一次推理中获得满意的结果。无需额外的训练,这种交互设计在视频对象跟踪和分割方面表现令人印象深刻。与视频目标跟踪(VOT)类似,视频对象分割(VOS)的目的是将视频序列中的目标从背景中分离出来,可以看作是一种更细粒度的目标跟踪。原创 2024-03-05 17:01:05 · 2523 阅读 · 0 评论 -
SAM轻量级改进EfficientViT-SAM论文解读EfficientViT-SAM: Accelerated Segment Anything ModelWithout
EfficientViT-SAM在保留SAM轻量级的提示编码器和Mask解码器的同时,用EfficientViT替换了沉重的图像编码器。训练过程包括两个阶段:首先,作者使用SAM的图像编码器作为教师来训练EfficientViT-SAM的图像编码器;其次,作者使用整个SA-1B数据集端到端地训练EfficientViT-SAM。实验中全面评估了EfficientViT-SAM在一系列零样本基准测试上的表现。EfficientViT-SAM在性能和效率上显著优于所有之前的SAM模型。原创 2024-03-04 14:24:18 · 2809 阅读 · 1 评论 -
Mobile-SAM使用的知识蒸馏方法论文讲解Distilling the Knowledge in a Neural Network
通常认为,知识是模型学习到的参数 (比如卷积的权重)将知识从大模型(教师网络)转移到更适合部署的小模型(学生网络)将知识从大模型迁移到小模型,模型的结构都不同,那这些 (知识)参数怎么会迁移成功?例如教师网络在识别一张宝马车图片时,可能会误认为垃圾车,很小的概率误认为胡萝卜,这就隐含了概率相对大小里面的一些隐含知识,所以迁移知识是可行的。2. 模型输出一般模型输出包括以下三种:logits:全连接层的输出hard targets:logits 通过 one-hot 编码实现。原创 2024-01-24 14:36:20 · 2197 阅读 · 0 评论 -
SAM掩码质量改进HQ-SAM论文解读Segment Anything in High Quality
SAM尽管使用了11亿个掩码进行训练,但SAM的掩码预测质量在许多情况下都存在不足,特别是在处理结构复杂的物体时。因此提出HQ-SAM,保持SAM原有的提示设计,使SAM具备准确分割任何目标的能力,可以在保持zero-shot能力的同时产生更高质量的掩码。HQ-SAM重用并保留了SAM的预训练模型权重,同时只引入了最小的额外参数和计算。设计了一个可学习的高质量输出Token,并注入到SAM的掩码解码器中,负责预测高质量的掩码。而不是只应用它的掩码解码器功能,HQ-SAM还。原创 2024-01-29 21:25:54 · 3337 阅读 · 0 评论 -
SAM轻量级改进Fast-SAM论文解读Fast Segment Anything
任意分割模型SAM突出的问题是与模型(SAM体系结构的主要部分)相关的大量计算资源需求。因此提出了一种具有相当性能的基本任务的加速替代方法。通过将任务重新表述为全实例分割和提示引导选择两个阶段,发现具有实例分割分支的常规CNN检测器也可以很好地完成该任务。通过仅在SA-1B数据集的2%(1/50)上直接训练该CNN检测器,以高50倍的运行时速度实现了与SAM方法相当的性能,大大减少了计算和资源需求,从而实现了实时应用。原创 2024-01-22 20:43:51 · 3566 阅读 · 0 评论 -
SAM轻量级改进Mobile-SAM论文解读FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAMFOR MOBILE APPLICATIONS
SAM在可用的训练资源有限的情况下性能不能令人满意,这主要是由图像编码器和掩膜解码器的耦合优化引起的,为此MobileSAM提出了解耦蒸馏。具体来说,是将重型图像编码器的知识提取为轻型图像编码器来使SAM适合移动设备,该轻型编码器可与原SAM中的掩码解码器自动兼容。由于我们的MobileSAM保留了原始SAM的所有管道,只是替换了图像编码器,因此它可以即插即用地为现有的基于SAM的项目从重量级SAM转变为轻量级SAM。原创 2024-01-26 14:41:43 · 3174 阅读 · 1 评论 -
SAM轻量级改进EfficientSAM论文解读EfficientSAM: Leveraged Masked Image Pretraining for Efficient SegmentAnyth
SAM巨大的计算成本限制了其在实际应用中的广泛应用,为了解决这个限制,提出了轻量级的EfficientSAM,它具有良好的性能,同时大大降低了复杂性。EfficientSAM的想法是基于利用掩码图像预训练SAMI,SAMI通过重建SAM图像编码器的潜在特征来改进掩膜图像的预训练,将视觉基础模型中的知识转移到ViT中,以实现有效的视觉表征学习。此外,采用SAMI预训练的轻量级图像编码器和掩码解码器来构建高效SAMs,并对SA-1B上的模型进行微调以进行分割任何任务。原创 2024-02-15 22:52:44 · 3769 阅读 · 1 评论 -
SAM轻量级改进RepViT-SAM论文解读RepViT-SAM: Towards Real-Time Segmenting Anything
SAM由一个重量级的基于vit的图像编码器和一个轻量级的提示引导掩码解码器组成。其巨大的图像编码器占据了大部分的推理时间开销。原创 2024-01-17 20:22:02 · 2618 阅读 · 1 评论 -
SAM轻量级改进EdgeSAM论文解读EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
EdgeSAM是SAM的加速变体,将原始的基于ViT的SAM图像编码器提炼成纯粹的基于CNN的架构,针对智能手机等边缘设备上的高效执行进行优化,以实现实时交互式分割,促进其在各种下游任务中的集成,并在性能上的妥协最小。现有的蒸馏方案只涉及图像编码器,因此是任务不可知的,不能向学生模型揭示SAM的完整知识谱。因此,本文对各种蒸馏策略进行基准测试,提出了一种同时考虑SAM的编码器和解码器并提供特定任务监督信号的提示循环知识蒸馏方法,以便蒸馏模型能够准确捕获用户输入和掩码生成之间的复杂动态。原创 2024-03-03 20:39:35 · 4059 阅读 · 1 评论
分享