Meta AI最新出品，全能的分割模型SAM：掀桌子的Segment Anything，CV届的ChatGPT已经到来！

原创

已于 2023-04-06 21:44:43 修改 · 7.6k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #chatgpt #深度学习

于 2023-04-06 21:44:41 首次发布

MetaAI开源了SegmentAnything（SAM）模型，这是一个通用分割网络，能够进行一键式多任务分割，包括语义分割、实例分割等。SAM基于大规模数据集训练，包括1100万张图像和11亿个mask标签，有望颠覆计算机视觉领域。模型结构采用了VisionTransformer，并且展示了优秀的分割效果和交互性。文章还讨论了模型的局限性和未来潜力。

掀桌子的Segment Anything

本来不打算再发关于分割的相关内容的，但是13小时前，2023年4月5号，Meta AI在Arxiv网站发布了文章《Segment Anything》，并将SAM模型代码和数据开源。作为通用的分割网络，SAM或许将成为，甚至是已经成为了CV届的ChatGPT。简简单单的两个词Segment Anything，简单粗暴却不失优雅。

说一些题外话，大概2023年初这段时间，ChatGPT访问量在国内迅速爆发（当然需要一些魔法），这个基于Transformer的大型预训练模型，直接就把NLP研究者们的饭桌给掀翻了（此处应该有乌鸦哥）。

OpenAI的ChatGPT满足了我小时候对未来科技的幻想，什么小学生写日记，ChatGPT给你写；暑假作业不会做，问ChatGPT；1+1不会算？ChatGPT给你算！ChatGPT就是这么简单粗暴，哪里不会点哪里，比步步高点读机还要牛逼。

随后微软、谷歌也相继发布了类ChatGPT的产品New-Bing、Bard。当然这里鞭尸一下百度的文言一心，一坨答辩。这方面国内确实做的不好，平均落后1-2年。当然，你OpenAI、Google、Microsoft什么公司，我百度什么公司，我有那个能力吗，我能做吗，做不了懂不懂啊(有请Batman)。

当然，不光是钱的问题，钱的问题好解决，难以解决的是大环境下人才的问题，这里的问题就复杂多了，总之，就是缺乏创新、缺乏设备、缺乏数据、不敢想、不敢做或者说敢想敢做却不能做，总是缺乏那一点心气，恰恰差了这点心气难成大事。OpenAI宁有种乎？

话说回来，Meta AI SAM模型的发布，同样掀翻了CV研究者们的饭桌。1100万张训练图像、11亿个mask 标签，如此大规模的训练数据集再加上Alexander Kirillov大神的一系列微操，Segment Anything成为囊中之物。

同样还是哪里不会点哪里，自动一键多任务分割，想要图中任何的东西，SAM都能给你割出来，只要你点一下或者框选一下甚至是提供文本。面对歧义的分割点时，甚至给你多个分割对象供你挑选。什么语义分割、实例分割、全景分割、视频追踪等等，统统拿下。总之就两个字——无敌（其实那两个字是通用）（人家确实无敌）。

一键式全景分割、实例分割

视频分割、追踪

最低0.47元/天解锁文章