顶配版SAM!由分割一切迈向感知一切

作者 | PaperWeekly  编辑 | 极市平台

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【大模型】技术交流群

本文只做学术分享,如有侵权,联系删文

导读

 

智源研究院视觉团队推出以视觉感知为中心的基础模型 TAP (Tokenize Anything via Prompting), 利用视觉提示同时完成任意区域的分割、识别与描述任务。将基于提示的分割一切基础模型 (SAM) 升级为标记一切基础模型 (TAP) ,高效地在单一视觉模型中实现对任意区域的空间理解和语义理解。

在计算机视觉领域,分割被视为感知的基础要素。通过分割,系统得以准确地定位和区分图像中的各个对象,为更深层次的感知提供了必要基础。全面的视觉感知不仅包括对图像进行分割,更涵盖对图像中对象与场景的语义理解、关系推断等高层次认知。

现有的视觉分割基础模型,如 SAM 及其变体,集中优势在形状、边缘等初级定位感知,或依赖外部模型完成更高级的语义理解任务。然而,迈向更高效的视觉感知则需要在单个模型中实现全面的视觉理解,以助力于更广泛的应用场景,如自动驾驶、安防监控、遥感以及医学图像分析等。

近日,智源研究院视觉团队推出以视觉感知为中心的基础模型 TAP (Tokenize Anything via Prompting), 利用视觉提示同时完成任意区域的分割、识别与描述任务。将基于提示的分割一切基础模型 (SAM) 升级为标记一切基础模型 (TAP) ,高效地在单一视觉模型中实现对任意区域的空间理解和语义理解。相关的模型、代码均已开源,并提供了 Demo 试用,更多技术细节请参考 TAP 论文。

f29055068f8cef115af90e5a73e195f1.png

论文地址:

https://arxiv.org/abs/2312.09128

项目&代码:

https://github.com/baaivision/tokenize-anything

模型地址:

https://huggingface.co/BAAI/tokenize-anything

Demo:

https://huggingface.co/spaces/BAAI/tokenize-anything

50af8a5ea8cd1ea9142abc837e14d92e.png

模型介绍

1.1 亮点

通用能力:TAP 是一个统一的可提示视觉基础模型,根据视觉提示(点、框、涂鸦)对任意区域内的目标同时进行分割、识别以及描述,最终汇聚成一组可用于综合评估区域内容的输出结果。

通用表征:TAP 将任意区域中的内容表示为紧凑的掩码标记和语义标记,掩码标记负责空间理解,语义标记则负责语义理解。因此,TAP 模型可以替代 SAM,CLIP 作为下游应用的新基础模型。

通用预训练:TAP 利用大量无语义的分割掩码,直接从通用 CLIP 模型中汲取开放世界知识。这种预训练新范式避免了使用与任意数据集相关的有偏差人工标注,缓解了物体在开放语义下的定义冲突与不完备问题。

1.2 方法

fd1db6ebd412a3e93783b8b5e53a9c27.png

视觉感知中的一个关键研究目标是如何高效地定位与识别任意感兴趣区域。这要求单一的可提示视觉模型同时具备分割、识别、与描述能力来充分地理解任意区域中的内容。同时,通过观察模型的多角度输出(分割、识别、文本生成),可以更加充分地评估和解释模型的理解能力(图a)。

现有的视觉基础模型因其预训练目标的不同,通常集中优势在单一的任务。例如 SAM 专注于空间理解能力,可以定位出与语义类别无关的分割掩码。另一方面,CLIP 及其各种变体则在视觉语义理解方面表现出色。因此,在 SAM 的架构中学习 CLIP 模型的语义先验,为全面的视觉感知提供了一个有效的途径。TAP 沿这一途径提出了如下的核心设计:

模型架构:为了实现一个统一的模型,TAP 在 SAM 架构的基础上,将掩码解码器升级为通用的图像解码器,同时输出掩码标记与语义标记(图b)。掩码标记负责预测分割掩码,语义标记则用于预测对应的语义标签和文本描述。

数据获取:训练一个多能力的视觉基础模型需要多样化标注的大规模数据集。然而,目前尚无公开的可同时用于分割与区域识别的大规模数据源。SA-1B 构建了 11 亿高质量掩码标注,用于训练分割基础模型,如 SAM。LAION-2B 收集了 20 亿图像-文本对,用于训练图文对齐模型,如 CLIP。

为了解决分割-文本对齐数据缺乏的问题,TAP 引入了 SemanticSA-1B 数据集(图c)。该数据集将来自 LAION-2B 的语义隐式地集成到 SA-1B 的分割数据中。具体而言,TAP 利用在 LAION-2B 数据集上训练的具有 50 亿参数的 EVA-CLIP 模型,预测 SA-1B 中的每一个分割区域在一个概念词汇上的分布。该分布提供信息最大化的语义监督,  避免模型在偏差过大的伪标签上训练。

模型训练:TAP 模型在 256 块寒武纪 MLU370 加速器上进行预训练,并行优化可提示分割概念预测两个任务。给定一张图片及一个视觉提示,TAP 模型将感兴趣区域表示为一个掩码标记和一个语义标记。基于语义标记,扩展一个 MLP 预测器可实现开放词汇分类任务。同时,扩展一个轻量化的自回归文本解码器即可实现文本生成任务。

9d0e99d37c3f5624539d0962ee3a06c0.png

量化结果、可视化展示

TAP 模型在零样本实例分割任务中取得了与 SAM 接近的分割精度(表1)。在零样本LVIS实例识别任务中,TAP 性能趋近于有监督检测模型的基线(表2)。基于 TAP 扩展的 38M 参数“小语言模型”在 Visual Genome 区域描述任务中取得了当前最优的 CIDEr 基准(表3),且参数量仅为此前最优方案 LLAMA-3B 的 1%。

fce50f775669baf39cd2975c3f97bee2.png 41b1034e9a4203413a5cf7ac39add8f7.png 528ad1daf6b839a3d3da3f8058a12655.png

简单点击或涂鸦图片中感兴趣的目标,TAP 即可自动生成目标区域的分割掩码、类别标签、以及对应的文本描述,实现了一个模型同时完成任意的分割、分类和图像描述。

98c7c8dc468befbf8b0b4cefef188438.jpeg d1948e5476e606840731d2161b1df554.jpeg d7ea4c34325456105eb8cae2fdf59323.jpeg 042345cbd322490db278706dfc24b111.jpeg 61ce073f505465a4763e960a7c90cacd.jpeg 1eee0f28c9cc1531f85fbcabd1983841.jpeg

对于需要全景理解的场景,采用密集网格点作为提示,模型即可对场景内所有的目标进行分割、识别以及描述。

da9484eedff011812cd88597c9efa892.jpeg af8138b9a49ec06fed0885662c0652b3.jpeg

参考文献

[1] Alexander Kirillov, et al. Segment anything. ICCV, 2023.

[2] Alec Radford, et al. Learning Transferable Visual Models from Natural Language Supervision. ICML, 2021.

[3] Sun, et al. EVA-CLIP: Improved Training Techniques for CLIP at Scale. arXiv:2303.15389, 2023.

[4] Schuhmann, et al. LAION-5B: An Open Large-scale Dataset for Training Next Generation Image-Text Models. arXiv:2210.08402, 2023.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

3330f72e51196bcc930142b17d162d69.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2400人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

683fba3d9db352e53f8decdbe5adc492.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

5673a293a205b4f57372e4590681ec8b.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

5905c280a527318648c77c503515e725.jpeg

<think>好的,用户让我介绍一下SAM(Segment Anything Model)分割一切的大模型。首先,我需要确认用户对SAM的了解程度。可能他们听说过这个模型,但想深入了解它的原理、应用或优势。SAM是由Meta AI开发的,基于深度学习的图像分割模型,能够零样本分割图像中的任何对象。 接下来,我应该整理SAM的关键点。首先是模型的结构,比如图像编码器、提示编码器和掩码解码器。然后是它的训练数据,SA-1B数据集,包含超过10亿掩码,这对模型的泛化能力至关重要。接着是核心功能,如支持点、框、文本等提示方式,以及自动生成全图分割掩码的能力。 用户可能关心SAM的应用场景,比如计算机视觉任务中的图像编辑、自动驾驶、医学图像分析等。此外,可能需要解释零样本分割的概念,说明它如何在没有特定任务训练的情况下适应新任务。 还要考虑用户可能的疑问,比如SAM的局限性,例如处理复杂遮挡或小物体时的挑战。同时,与之前的分割模型相比,SAM的优势在哪里,比如灵活性和泛化能力。 需要确保使用中文,结构清晰,分点说明。避免使用过于专业的术语,或者必要时进行解释。比如,解释“掩码”是指分割出的对象区域。同时,检查LaTeX格式是否正确,但根据用户的问题,可能不需要数学公式,但如果有必要,确保用$...$或$$...$$包裹。 最后,总结SAM的意义,比如推动通用AI在视觉领域的发展,为后续研究提供基础。可能用户是研究者或开发者,想了解如何应用SAM到自己的项目中,可以提到开源代码和预训练模型的可用性。 现在组织这些信息,确保符合之前的系统指令,使用自然口语化的中文,分步骤解释,结构清晰,每部分有标题,帮助用户逐步理解SAM模型。</think>SAM(Segment Anything Model,分割一切模型)是由Meta AI(原Facebook AI)于2023年提出的通用图像分割大模型,其核心目标是实现"零样本"(zero-shot)的任意对象分割能力。以下是关于SAM的核心要点: --- ### **1. 核心特点** - **全场景分割** 无需特定训练即可分割图像中任意对象,支持点、框、文本等多种交互提示方式 - **零样本学习** 即使面对未见过的物体类别或复杂场景,也能生成准确的分割掩码 - **多模态输入** 支持多种输入形式:点击(正/负点)、边界框、粗略掩码、文本描述等 --- ### **2. 技术架构** 模型采用三阶段结构: 1. **图像编码器** - 使用MAE预训练的ViT-H/16视觉Transformer - 将图像转换为高维特征向量(1024×64×64) 2. **提示编码器** - 处理点/框/文本等提示信息 - 对位置信息进行位置编码 3. **掩码解码器** - 结合图像特征和提示信息 - 通过交叉注意力机制生成最终掩码 --- ### **3. 关键创新** - **SA-1B数据集** 包含1100万张图像和**11亿个高质量分割掩码**,覆盖广泛场景和对象 - **提示式分割** 通过交互式提示实现动态分割,模拟人类标注过程 - **歧义处理** 对模糊提示(如物体重叠区域)可输出多个合理分割结果 --- ### **4. 性能表现** | 指标 | 表现 | |-------------------|------------------------------| | 单掩码生成速度 | ≈50ms/张(GPU) | | COCO零样本mIoU | 77.8(超过监督学习模型) | | LVIS零样本mIoU | 58.1 | --- ### **5. 应用场景** - **图像编辑**:精确对象抠图 - **自动驾驶**:实时道路场景解析 - **医学影像**:病灶区域自动标注 - **遥感分析**:地理要素快速提取 - **视频处理**:跨帧对象追踪 --- ### **6. 局限性** - 对超精细边缘(如头发)分割仍有提升空间 - 处理高度遮挡物体时可能出现漏分割 - 文本提示的语义理解能力待加强 --- ### **7. 开源生态** - 代码库:GitHub公开(Apache 2.0协议) - 预训练模型:提供ViT-H/ViT-L/ViT-B三种规模 - 交互式Demo:可通过网页端体验实时分割 SAM的推出标志着通用计算机视觉模型的重要突破,其论文《Segment Anything》已被CVPR 2023收录。该模型为后续的通用视觉系统(如目标检测、图像生成等任务)提供了强大的基础能力支撑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值