SAM(Segment Anything Model),为分割一切,由Facebook的Meta AI实验室在2023年发布,能够根据文本指令或图像识别,实现对任意物体的识别与分割。

论文地址:https://arxiv.org/abs/2304.02643
项目地址:https://github.com/facebookresearch/segment-anything
SAM从任务(task)、模型(model)、数据(data)3部分展开。
一.任务
SAM借鉴了NLP领域的Prompt策略,通过给图像分割任务提供Prompt提示来完成任意目标的快速分割。Prompt类型可以是前景/背景点集、粗略的框或遮罩、任意形式的文本或者任何指示图像中需要进行分割的信息。模型的输入是原始的图像和一些prompt,目标是输出有效的分割。
二.模型
SAM 由3个主要部分组成:图像编码器、提示编码器和mask解码器。

1.Image encoder
将输入图像映射到特征空间,主要依赖于预训练好的ViT(vision Transformer)模型,该模型基于 MAE(masked auto encoder)方法进行训练。
2.Prompt encoder
提示分为离散(points、boxes、text)和稠密(masks)2类。通过位置编码来表示点和框,并使用CLIP的现成文本编码器来表示自由格式文本。稠密提示(即掩码)使用卷积编码,并与图像嵌入逐元素求和。

最低0.47元/天 解锁文章
1680

被折叠的 条评论
为什么被折叠?



