视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品

部署运行你感兴趣的模型镜像
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

现在AI圈确实到了拼手速的时候啊。

这不,Meta的SAM刚刚推出几天,就有国内程序猿来了波buff叠加,把目标检测、分割、生成几大视觉AI功能all in one!

比如基于Stable Diffusion和SAM,就能让照片中的椅子无缝换成沙发:

8df0213c355733024c7b48866845ad2c.png

换装、换发色也是so easy:

3a83cfffce5f11c5fabe62b86ce7f02f.gif

项目一经发布就让不少人惊呼:手速也太快了吧!

8d47e51108e596311e806d5d48b02bc0.png

还有人表示:我和新垣结衣的新结婚照有了9ab96d434db66644b1ed8e128805e869.png

c41fb89e8295fdd5fd387b5fea56ae70.png

如上就是Gounded-SAM带来的效果,项目在GitHub上已揽星1.8k。

简单来说,这就是一个zero-shot视觉应用,只需要输入图片,就能自动化检测和分割图像。

该研究来自IDEA研究院(粤港澳大湾区数字经济研究院),创始人兼理事长为沈向洋。

无需额外训练

Grounded SAM主要由Grounding DINO和SAM两个模型组成。

其中SAM(Segment Anything)是4天前Meta刚刚推出的零样本分割模型。

它可以为图像/视频中的任何物体生成mask,包括训练过程中没出现过的物体和图像。

通过让SAM对于任何提示都返回有效的mask, 能够让模型在即使提示是模糊的或者指向多个对象的情况下,输出也应该是所有可能中一个合理的mask。这一任务用于预训练模型并通过提示解决一般的下游分割任务。

模型框架主要由一个图像编码器、一个提示编码器和一个快速mask解码器组成。在计算图像嵌入后,SAM能够在50毫秒内根据web中的任何提示生成一个分割。

201d1c906fbc76548643aa30c8608ed9.png

Grounding DINO是该研究团队已有的成果。

这是一个零样本检测模型,能够生成带有文字描述的物体box和标签。

4cf56f526d6f0085b33f8f8fd85389d8.jpeg

二者结合后,可以通过文本描述找到图片中的任意物体,然后通过SAM强大的分割能力,细粒度地分割出mask.

bf110f40519d710348a0d99d4415b144.png

在这些能力之上,他们还叠加了Stable Diffusion的能力,也就是开头所展示的可控图像生成。

值得一提的是,Stable Diffusion此前也能够实现类似功能。只要涂抹掉想替换的图像元素,再输入文本提示就可以。

这一回,Grounded SAM能够省去手动选区这个步骤,直接通过文本描述来控制。

另外结合BLIP(Bootstrapping Language-Image Pre-training),生成图片标题、提取标签,再生成物体box和mask。

95b4a66788407a454088a9224b1d06e5.jpeg

目前,还有更多有趣的功能正在开发中。

比如人物方面的一些拓展:更换衣服、发色、肤色等。

9c5b0b9bbe818a097d5b51eb8e35b652.png
541e8943fd20ecb07ded00fdcdb6445a.png

具体食用方法也已在GitHub上给出。项目需要Python 3.8以上版本,pytorch 1.7以上版本,torchvision 0.8以上版本,并要安装相关依赖项。具体内容可看GitHub项目页。

该研究团队来自IDEA研究院(粤港澳大湾区数字经济研究院)。

公开消息显示,该研究院是一所面向人工智能、数字经济产业及前沿科技的国际化创新型研究机构,前微软亚研院首席科学家、前微软全球智行副总裁沈向洋博士担任创始人及理事长。

One More Thing

对于Grounded SAM的未来工作,团队有几点展望:

  • 自动生成图像构成新数据集

  • 具有分割预训练的强大基础模型

  • 和(Chat-)GPT合作

  • 构成一个自动生成图像标签、box和mask的pipeline,并能生成新的图像。

值得一提的是,该项目的团队成员中,有不少都是知乎AI领域活跃的答主,这次也在知乎上自答了关于Grounded SAM的内容,感兴趣的童鞋可以去留言请教~

3884bb6bb39a8e69939eedb95c3a93cc.png

参考链接:
[1]https://zhuanlan.zhihu.com/p/620271321
[2]https://github.com/IDEA-Research/Grounded-Segment-Anything
[3]https://segment-anything.com/

您可能感兴趣的与本文相关的镜像

Dify

Dify

AI应用
Agent编排

Dify 是一款开源的大语言模型(LLM)应用开发平台,它结合了 后端即服务(Backend as a Service) 和LLMOps 的理念,让开发者能快速、高效地构建和部署生产级的生成式AI应用。 它提供了包含模型兼容支持、Prompt 编排界面、RAG 引擎、Agent 框架、工作流编排等核心技术栈,并且提供了易用的界面和API,让技术和非技术人员都能参与到AI应用的开发过程中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值