1.引言
随着OpenAI公司ChatGPT的火爆,国内外科技公司都陆续发布自然语言通用领域大模型。而图像领域AI,一时间没了热度。转机出现在上个月,Meta发布了分割万物的视觉通大模型Segment Anything Model(SAM)。关注图像或者遥感语义分割的同事可能知道,语义分割作为计算机视觉的核心任务,应用广泛,但最大的限制就是需要大量的标注数据,并且针对不同的任务需要重新训练或微调,试想,如果出现一个适用所有场景的通用分割模型,数据不用标注了,模型也不用训练了,开包即用,多是一件美事。
SAM的愿景就是这样,不仅遥感领域,他要把所有目之所及的图像都纳入他的分割能力之内。早前几年,大家会觉得这样的想法很不现实,但在GPT大模型智能“涌现”的今天,好像也不是不可能。最近实验室经过本地部署和测试,为大家带来SAM在GIS领域的效果测评。
2.SAM介绍
SAM被誉为图片领域中的ChatGPT,可以对图片中的所有对象进行分割。以大家熟知的PS抠图功能类比,过去实现抠图大体上有两种打法:1.经过大量训练,分割出特定对象,比如抠人的模型,抠衣服的模型,抠动物的模型等;2.分割时尽可能的通用,分割后再进行微调。实际应用中,这两种方案混合出现,进而实现自动抠图的效果。
但SAM依赖庞大的参数量和海量训练数据在视觉角度理解了万物,按Meta的原话来说「SAM 已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』即开即用,无需额外的训练。」即一个模型可以对图片的任何对象进行圈定,如下图所示。

3.SAM测试
3.1 SAM相关参数
| 训练数据名称 |
图片数量 |
Mask数量 |
图像平均分辨率 |
| SA-1B V1.0 |
1100万 |
11亿 |
1500×2250px |

文章介绍了Meta发布的SegmentAnythingModel(SAM),这是一个通用的视觉分割模型,类似于图像领域的ChatGPT,能够对各类图像进行对象分割,无需大量标注数据或额外训练。SAM展示了在GIS领域的应用效果,包括自动分割、指定位置分割、框选分割和文本提示分割等功能,并提供了本地部署测试的环境与结果分析。文章认为SAM在遥感和其他专业领域具有巨大潜力,但也指出其在特定领域可能需要定制化下游模块。
最低0.47元/天 解锁文章
1864





