FastSAM分割一切

摘要

        最近提出的分割任何模型 (SAM) 在许多计算机视觉任务中产生了重大影响。它正在成为许多高级任务的基础步骤,例如图像分割、图像标题和图像编辑。然而,其巨大的计算成本阻碍了它在工业场景中的广泛应用。计算主要来自高分辨率输入下的 Transformer 架构。在本文中,我们提出了一种具有可比性能的加速替代方法来完成这项基本任务。通过将任务重新表述为分段生成和提示,我们发现具有实例分割分支的常规 CNN 检测器也可以很好地完成这项任务。具体来说,我们将这个任务转换为经过充分研究的实例分割任务,并直接使用 SAM 作者发布的 SA-1B 数据集的 1/50 来训练现有的实例分割方法。使用我们的方法,我们以 50 倍更高的运行速度实现了与 SAM 方法相当的性能。我们给出了足够的实验结果来证明其有效性。代码和演示:GitHub - CASIA-IVA-Lab/FastSAM: Fast Segment Anythingicon-default.png?t=N7T8https://github.com/CASIA-IVA-Lab/FastSAM

1 SAM与FastSAM

        Segment Anything Model (SAM)被提出。它被认为是一个里程碑式的愿景基础模型。它可以在各种可能的用户交互提示的引导下分割图像中的任何对象。SAM 利用在广泛的 SA-1B 数据集上训练的 Transformer 模型,使其能够巧妙地处理各种场景和对象。SAM 为一项激动人心的新任务打开了大门,称为 Segment Anything。由于其可推广性和潜力,这项任务具有成为未来广泛视觉任务的基石的所有条件。然而,尽管取得了这些进步,并且SAM和后续模型在处理细分市场任何任务方面都显示出可喜的结果,但其实际应用仍然具有挑战性。最突出的问题是与 Transformer (ViT) 模型相关的大量计算资源需求,而 Transformer 模型是 SAM 架构的主要部分。与卷积对应物相比,ViT因其繁重的计算资源需求而脱颖而出,这给它们的实际部署带来了障碍,尤其是在实时应用中。因此,这种限制阻碍了细分任何任务的进展和潜力。
        FastSAM为分割一切设计了一个实时解决方案。我们将任务细分为两个顺序阶段,即全实例分割和提示引导选择。第一阶段取决于基于卷积神经网络(CNN)的检测器的实现,它生成图像中所有实例的分割掩码。然后在第二阶段,它输出与提示相对应的感兴趣区域。通过利用CNN的计算效率,该方法证明了任何模型的实时分割都是可以实现的,而不会对性能质量产生太大影响。希望所提出的方法能够促进分割任何东西的基础任务的工业应用。

1.1 FastSAM的优势与应用价值

        FastSAM是基于一个配备实例分割分支的目标检测模型 YOLOv8-seg,YOLOv8-seg利用了 YOLACT方法。FastSAM通过在仅 2% (1/50) 的 SA-1B 数据集(SAM发布的广泛的SA-1B数据集)上直接训练该 CNN 检测模型,它实现了与 SAM 相当的性能,但计算和资源需求大大降低,从而实现了实时应用。FastSAM能够应用于多个下游分割任务,其在 MS COCO的对象提案任务中,在 AR1000 上获得了 63.7 分(SAM 的 32×32 点提示输入高出 1.2 分),但在单个 NVIDIA RTX 3090 上运行速度快了 50 倍。


        实时分割一切的模型对于工业应用都很有价值。它可以应用于许多场景。所提出的方法不仅为大量视觉任务提供了一种新的、实用的解决方案,而且速度非常快,比现有方法快几十倍或几百倍。它还为一般视觉任务的大型模型架构提供了新视图。对于特定任务,特定模型仍然会利用优势来获得更好的效率准确性权衡。然后,在模型压缩的意义上,我们的方法证明了一种路径的可行性,该路径可以通过在结构

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值