本文来源公众号“CVHub”,仅用于学术分享,侵权删,干货满满。
原文链接:Segment Anything 2 (SAM2) in X-AnyLabeling: 构建快速精准的图像和视频标注对象分割工具
在之前的文章CVHub|AI标注神器 X-AnyLabeling-v2.3.0 发布!支持YOLOv8旋转目标检测、EdgeSAM、RTMO等热门模型! 介绍了这个自动标注软件,亲测好用!!
导读
Segment Anything 的初次发布受到了广泛赞誉,在 ICCV 2023 上获得了荣誉提名,并吸引了行业领袖和学术界的关注。在此基础上,Meta 现推出了 Segment Anything 2,该模型进一步提高了图像分割的精度,并将其功能扩展到视频识别。
在本指南中,我们将探索 Segment Anything 2 的新特性,这些特性现已无缝集成到 X-AnyLabeling 生态系统中。现在,所有使用 X-AnyLabeling 的小伙伴都可以轻松地使用 SAM2 来构建强大的计算机视觉流程。
Segment Anything 2
简介
Segment Anything Model 2,简称SAM 2,这是一个用于图像和视频中交互式实例分割的基础模型。它基于带有streaming memory
的 Transformer 架构构成,以支持实时视频处理。SAM 2 是第一个版本的 SAM 向视频领域的泛化,它可以逐帧处理视频,并使用一个记忆注意力模块来关注目标对象的前一记忆。当 SAM 2 应用于图像时,内存为空,其模型的整个行为便退化到常规的 SAM。
与 Segment Anything 的第一个版本不同,SAM 2 解码器使用的帧嵌入是基于过去预测的记忆和提示帧(注意这里并不是直接从图像解码器获取的)。记忆编码器根据当前预测创建帧的“记忆”,这些“记忆”存储在模型的记忆库中,以供后续帧使用。记忆注意力操作从图像编码器获取每帧嵌入,并将其条件化于记忆库,以产生一个嵌入,然后这个嵌入被传递给掩码解码器。