Segment Anything Model论文阅读

本文解析了SAM模型,一种在零样本任务中表现出色的模型,通过NLP提示和交互式分割方法实现。文章详细介绍了模型架构、训练过程和技术细节,探讨了零样本泛化能力和数据集的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概要

SAM是一个令人耳目一新的zero-shot任务,在各项任务中具有很强的泛化性能,也有看到一些博主对改论文记进行解读,但自己在阅读过程中也有一点新的收获,接下来对论文中的一些技术点进行简要的介绍

整体架构流程

SAM技术框架
SAM主要探究的问题是:

  1. 什么任务可以实现零样本泛化?
  2. 对应的模型架构是什么?
  3. 哪些数据可以为该任务和模型提供支持?

在实现过程中文章借鉴了NLP文本提示任务,将提示任务转换分割任务,此外文章中多次提及交互式分割算法。
文章中的数据标注过程分为三个阶段。
阶段1: SAM协助开发者进行交互标注;
阶段2: SAM根据提示可能对象位置进行标注,标注过程中专注于SAM分割遗漏的对象;
阶段3: 利用前景点提示SAM自动成高质量掩膜【论文提出的数据集是有SAM的最后阶段完成样本制作】
在这个过程中模型的参数量也随之增大。
在论文引言中也提到:“模型使用丰富语料库进行扩展后,模型的零样本和少样本性能或进行模型微调的性能具有显著提升。经验趋势表明,这种行为随着模型规模、数据集大小和总训练计算而改善 。”

技术名词解释

zero-shot:它指的是模型在没有之前见过的类别或样本的情况下进行识别和分类的能力。通常情况下,传统的机器学习模型需要在训练阶段接触到所有可能的类别才能进行分类,但在现实世界中,新的类别可能会不断涌现,这就需要具备零样本学习的能力。

SAM技术细节

总体架构

SAM模型结构包括以下5各方面
a. 图像编码器:基于MAE预训练ViT
b. 提示编码器:点、框采用位置编码,文本采用CLIP编码,
c. mask解码器:采用了 Transformer 解码器的修改,后跟动态mask预测头。我们修改后的解码器块使用两个方向的即时自注意力和交叉注意力(即时图像嵌入,反之亦然)来更新所有嵌入。运行两个块后,我们对图像嵌入进行上采样,并且 MLP 将输出标记映射到动态线性分类器,然后计算每个图像位置的掩模前景概率
d. 解决歧义:对于一个输出,如果给出不明确的提示,模型将对多个有效掩码进行平均。为了解决这个问题,作者修改模型以预测单个提示的多个输出掩码。 3 个掩码输出足以解决最常见的情况(嵌套掩码通常最多三层深度:整体、部分和子部分)。在训练期间,仅反向传播mask上的最小损失。
e. 训练损失:focal loss [ and dice loss;使用几何提示的混合来训练可提示的分割任务

模型细节

  1. 图像编码:所有输入图像均被上采样或降采样为了1024*1024
  2. 提示编码:提示编码被映射为256的向量,点提示被表示为该点的位置编码和点在前景和背景标签的总和。边界框编码为它的左上角和右下角的总和;文本采用CLIP进行表示。输入的掩膜降采样后,最终将通道维度映射到256,然后按元素添加掩膜和图像嵌入。如果没有掩模提示,则将表示“无掩模”的学习嵌入添加到每个图像嵌入位置。
  3. 轻量掩膜解码器:将图像和提示映射为输出掩膜每个解码器层执行 4 个步骤:(1) 对标记进行自我关注,(2) 从标记(作为查询)到图像嵌入的交叉注意力,(3) 逐点感知的 MLP 更新每个标记,以及 (4) 从图像嵌入(作为查询)到标记的交叉注意力。最后一步使用提示信息更新图像嵌入。
  4. 使模型具有模糊感知:作者使用少量的输出标记并同时预测多个掩码,而不是预测单个掩码。默认情况下,我们预测三个掩码,因为我们观察到三层(整体、部分和子部分)通常足以描述嵌套掩码。[作者在文中提到,训练过程中使用损失值最小的那个进行梯度更新,这里在实现上存在一些疑问]
  5. 掩膜后处理:作者在后处理中首先保留iou较高掩膜结果,并提到了去除小掩膜与空洞填充问题

小结

细读一下论文可以注意到SAM模型的诞生经历了一个非常复杂的训练过程,大量的数据与大量的人工交互模型具有很好的泛华性,可以实现zero shot(模型的抽象性),但有人提出zero shot 是一个伪命题,如此大量的数据,很难保证现有的数据中不会存在泄露;而且在非自然影像领域中的迁移用也是存在一定障碍的;就好比imagenet的预训练权重在非自然图像中的迁移性并不好。或许像文中所提到的:在这里插入图片描述
这句话其实要好好斟酌,是语料增加是提升了模型的特征提取与抽象能力,还是说预料的增加实际上实质上造成了一定的数据泄露,还有待进一步在不同领域的迁移测试。深度学习模型的容量、特征抽象与归纳能力是相辅相成的,但不能完全混淆。
另一方面,模型的交互式操作对现实的模型具有指导意义,当前深度学习仍处在数据对切模型的阶段,对模型的交互优化,少量数据的快速优化这种更接近人类学习特征的过程探究较少,目前新型的增量学习、在线学习对这方面或许具有一定启发。
只说不做假把式,学习!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云朵不吃雨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值