阿旭算法与机器学习 | SAM 3 重磅发布!基于文本 / 图像提示搞定图像 / 视频全流程分割,性能直接翻倍

本文来源公众号“阿旭算法与机器学习”,仅用于学术分享,侵权删,干货满满。

原文链接:https://mp.weixin.qq.com/s/mt-DODLsEWmQYdPI0Jx0Gg

引言

在这里插入图片描述

在这里插入图片描述

SAM 3是一款视觉大模型,可基于概念提示(短名词短语、图像示例或两者结合)在图像和视频中检测、分割并跟踪目标,核心任务为可提示概念分割(PCS);其通过共享视觉骨干网络的检测器与基于内存的跟踪器架构,引入存在头(Presence Head) 解耦识别与定位以提升检测精度,同时构建了包含400万独特概念标签的高质量数据集及SA-Co基准测试集;实验表明,SAM 3在图像和视频PCS任务上性能较现有系统提升2倍,在交互式视觉分割任务上也优于前代SAM,并开源了模型与基准测试集,在H200 GPU上单图像(含100+检测目标)推理耗时30ms,视频中支持约5个目标近实时跟踪。

一、SAM 3模型核心定位与任务定义

  1. 模型定位:SAM 3是一款统一模型,可在图像和视频中基于概念提示完成目标的检测、分割与跟踪,同时兼容前代SAM的交互式视觉分割(PVS)任务,实现对“任意概念”的视觉理解。

  2. 核心任务:可提示概念分割(PCS)

    • 输入:短名词短语(如“yellow school bus”)、图像示例(单帧正负边界框)或两者结合。

    • 输出:所有匹配概念的分割掩码及唯一目标标识,视频中需保持目标跨帧身份一致性。

    • 任务特点:限制文本为简单名词短语,解决概念歧义(如“small window”的主观性),支持用户通过优化提示调整输出。

二、SAM 3模型架构设计

1. 整体架构

在这里插入图片描述

在这里插入图片描述

  • 共享组件:采用Perception Encoder(PE) 作为视觉骨干网络,同时服务于图像检测器与视频跟踪器,确保视觉-语言特征对齐。

  • 核心模块:分为图像级检测器基于内存的视频跟踪器,解耦检测与跟踪任务以避免目标身份冲突(检测器无需关注身份,跟踪器需区分身份)。

2. 关键组件细节

组件

核心功能

创新点/关键设计

检测器

处理图像级PCS任务,输出实例掩码、边界框

1. 基于DETR架构,支持文本、几何、图像示例输入;
2. 引入存在头(Presence Head) 解耦识别与定位

存在头

预测概念在图像/帧中的存在性(p(NP存在))

1. 全局存在令牌仅负责“是否存在”,目标查询仅负责“定位”;
2. 最终目标得分=存在得分×目标查询得分

跟踪器

视频中传播掩码、匹配新检测目标,保持目标身份

1. 继承SAM 2传播机制,基于历史帧特征构建内存库;
2. 时间消歧策略:跟踪确认延迟、掩码抑制、定期重新提示

交互式优化

支持图像示例与视觉提示(点、框)迭代优化掩码

1. 图像示例:通过正负边界框补充提示;
2. 视觉提示:如SAM 2风格的点击优化单掩码

3. 训练阶段

在这里插入图片描述

在这里插入图片描述

SAM 3分4阶段渐进式训练,各阶段目标与数据如下表:

训练阶段

核心目标

关键数据/设置

阶段1:PE预训练

预训练图像与文本编码器,实现宽概念覆盖与鲁棒性

54亿图像-文本对,视觉编码器4.5亿参数,文本编码器3亿参数

阶段2:检测器预训练

训练图像检测器,兼顾PCS与PVS任务基础能力

大规模图像分割数据(含视频帧),PVS任务限制4步交互,使用Align损失

阶段3:检测器微调

提升检测精度,引入存在头,扩展交互能力

仅保留高质量数据(如SA-Co/HQ),PVS任务扩展至7步交互,学习率降低0.025倍

阶段4:跟踪器训练

训练视频跟踪器,保持空间定位能力不退化

冻结PE骨干,使用16帧/32帧视频训练,余弦学习率调度(1k步预热)

三、数据引擎与数据集构建

1. 数据引擎:4阶段迭代流程

数据引擎通过“模型-人类-AI”反馈循环生成高质量标注数据,核心目标是覆盖更多概念与视觉领域,各阶段特点如下:

阶段

核心工作

关键成果

阶段1:人类验证

随机采样图像,BLIP-2生成名词短语,SAM 2生成掩码,全人工验证(质量+完整性)

120万图像,430万图像-名词短语对,构建初始SA-Co/HQ数据集

阶段2:人类+AI验证

微调Llama 3.2作为AI验证器(替代部分人工),生成难例负样本

240万图像,1.222亿图像-名词短语对,吞吐量提升2倍,SAM 3性能提升至CGF₁ 38.4

阶段3:规模化与领域扩展

AI挖掘难例,扩展至15个视觉领域,提取长尾/细粒度概念

160万图像,1950万图像-名词短语对;生成SA-Co/SYN(3940万图像,17亿掩码)

阶段4:视频标注

筛选挑战性视频(如拥挤场景),采样帧用图像引擎标注,人工修正跟踪掩码

5.25万视频,13.43万视频-名词短语对(SA-Co/VIDEO),SAM 3视频pHOTA达48.1

2. 核心数据集与SA-Co基准测试集

(1)训练数据集

数据集

规模

特点

SA-Co/HQ

520万图像,400万独特名词短语,5200万掩码

高质量标注,人工/AI验证,覆盖15个领域

SA-Co/SYN

3940万图像,3800万独特名词短语,14亿掩码

纯AI生成,基于MetaCLIP图像与Llama4 caption,含难例负样本

SA-Co/EXT

930万图像,1.366亿图像-名词短语对

18个外部数据集增强,生成掩码(如用SAM 2处理边界框),补充负样本

SA-Co/VIDEO

5.25万视频,2.48万独特名词短语,46.7万掩码

人工验证,聚焦跟踪挑战场景(如遮挡、快速运动)

(2)SA-Co基准测试集

  • 核心规模:21.4万独特概念,12.6万图像/视频,300万+媒体-概念对,含大量难例负样本。

  • 主要子集:

    • SA-Co/Gold:7个领域,每图像-概念对3个人工标注(用于衡量人类性能)。

    • SA-Co/Silver:10个领域,每图像-概念对1个人工标注。

    • SA-Co/VEval:视频基准,3个领域(SA-V、YT-Temporal-1B、SmartGlasses),每视频-概念对1个标注。

  • 评估指标:

    • CGF₁(分类门控F1):核心指标,=100×pmF₁×IL MCC,综合定位与分类性能。

    • pmF₁(正样本宏F1):评估定位精度,平均0.5-0.95 IoU阈值结果。

    • IL MCC(图像级马修相关系数):评估分类能力(目标是否存在),范围[-1,1]。

四、关键实验结果与性能表现

1. 图像PCS任务

评估场景

关键结果

对比基准优势

零样本LVIS掩码AP

47.0

(现有最佳为38.5)

超DINO-X(27.7)、Gemini 2.5(18.7)

SA-Co/Gold的CGF₁

65.0

是OWLv2⋆(34.3)的2倍,达人类性能下限88%

开放词汇语义分割(ADE-847)

超APE(强专业基线)

-

2. 视频PCS任务

基准测试集

关键指标

SAM 3结果

最佳基线结果(如GLEE、LLMDet+SAM 3 Tracker)

SA-Co/VEval(SA-V)

CGF₁ / pHOTA

27.8 / 53.9

GLEE:0.2 / 8.8;LLMDet+Tracker:3.6 / 31.2

LVVIS测试集

mAP

38.2

GLEE:20.8;SAM 3 Detector+T-by-D:37.3

BURST测试集

HOTA

45.9

GLEE:28.4;SAM 3 Detector+T-by-D:40.7

人类性能(SA-Co/VEval)

pHOTA

-

68.0(SAM 3达人类水平80%+)

3. 其他核心任务

  • 交互式图像分割(SA-37基准):1-click mIoU 65.4,5-clicks mIoU 85.0,超SAM 1(1-click 58.5、5-clicks 82.1)与SAM 2。

  • 目标计数(CountBench/PixMo-Count):CountBench MAE 0.11、Acc **95.6%**,超Gemini 2.5 Pro(MAE 0.24、Acc 92.4%)。

  • SAM 3 Agent(结合MLLM):零样本在ReasonSeg(gIoU 76.0)、OmniLabel(AP 43.7)达SOTA,支持复杂查询(如“people sitting down but not holding a gift box”)。

4. 推理效率

  • 图像推理:H200 GPU处理单图像(含100+检测目标)耗时30ms

  • 视频推理: latency随目标数量线性增长,支持**~5个并发目标**近实时跟踪(30 FPS),多GPU并行可扩展至更多目标(如8 H200支持64个目标)。

五、开源与扩展价值

  1. 开源内容:SAM 3模型、SA-Co基准测试集、模型检查点及推理代码。

  2. 扩展能力

    • 领域适配:少量微调即可适配细粒度领域(如医疗、食品),合成数据(SA-Co/SYN)可无人工标注提升新领域性能。

    • 多模态协作:与任意MLLM结合(如Qwen2.5-VL、Gemini 2.5 Pro),统一系统提示即可处理复杂语言查询。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值