比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023...

部署运行你感兴趣的模型镜像
张浩 投稿
量子位 | 公众号 QbitAI

ICCV论文收录名单近日「开奖」,其中就包括这个港科大一作的图像分割模型!

它能以更低的训练成本实现更好的效果,哪怕遇到未知物体也能迎刃而解。

此外据作者介绍,它还是第一个拥有基于box prompts的分割能力的AI模型,比Meta的SAM还要早实现

c545eea8d7b42a2a9121962a28a7dfb1.gif

773c6c98e6a4fe60113910845b93e21e.png

这篇论文第一版预印本的发布时间是今年的3月14日(北京时间15日),比SAM早了20多天

那么,这个图像分割模型,究竟效果如何,又是如何做到的呢?

(以下内容由投稿者提供)

下图展示了这个名为OpenSeeD的模型的输出效果:

73ff1e4848b137d17dcccba3ac0777f8.jpeg

它既可以做经典的实例、语义以及全景分割,又可以分割出从未见过的物体类别,还可以基于检测框分割出从未见过的物体并给出正确的类别。

工作原理

OpenSeeD是一个简单而有效的开放词表图像分割的框架,也可以理解为MaskDINO扩展到开放词表的版本。

如下图所示,过去已经有不少工作结合大量的图像文本对实现开词表检测或者分割,而OpenSeeD是第一个把物体检测数据和全景分割数据结合在一起联合训练的工作,并且证明是可行有效的,填补了这一领域的空白。

6a6b4ee27844d474382549cb9216930b.png

除此以外,为了扩展语义的丰富程度,研究团队引入O365(365类)检测数据和COCO分割(133类)一起训练(不同于MaskDINO使用O365预训练)。

由于使用了不同的数据集,研究团队需要解决了二者之间的数据和任务的差异,以便两个任务和词表兼容。

整体上,OpenSeeD的工作原理如下图所示,两种差异也是通过这一方式解决的:

262a25de609f62364fcddb1cc4f90fd1.jpeg

图中左半部分完成的是通用场景分割。

为了解决基础模型的任务差别(O365只有前景,而COCO有前景和背景),研究团队把前景和背景的预测进行解耦。

d269f389e3c0abb3d30806d50230474e.png

右半部分是条件预测部分,可以通过GT box预测图像遮罩。

在这一部分中,团队通过为O365打标签为了解决数据差异问题。

最终,该团队的方法在多个开放词表任务上取得了与当前最佳方法x-decoder相当甚至更好的效果,相比x-decoder用了4M人工标注的图像描述数据,OpenSeeD只用了0.57M的检测数据。

另外,研究团队还发现,即使只用5k的O365数据,也可以在开放词表任务上达到类似的效果。

这说明OpenSeeD需要的是丰富的视觉概念(种类数),而不一定是很大的数据量(个体数)。

低成本,高效果

OpenSeeD作为一个强大的开集分割方法,可以分割出大量从未见过的物体,在各项开集和闭集指标上都取得了最佳成绩。

而且通过引入O365检测任务来提升开集语义能力,OpenSeeD的训练成本也相对其他开集方法更低。

下表展示了OpenSeeD的测试结果:

3f93684b2bff042bd01553b66b0ef705.jpeg

通过较少的检测数据,研究团队发现在多个零训练样本分割任务上达到或超越了现有最佳方法X-Decoder,GLIPv2等,尤其在SeginW任务(大量陌生类别)上取得了远超X-Decoder的效果。

66bd147e71a3ad0bea74aeded03b6df3.jpeg

除此以外,当团队微调到其他数据集时,OpenSeeD都表现出了远超参照标准的性能。

在COCO和ADE20K的全景分割以及ADE20K和Cityscapes的实例分割上,OpenSeeD的性能也与现有最佳模型相当。

96a21559837f376832ab750d870cf497.jpeg

论文地址:
https://arxiv.org/abs/2303.08131

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

37f9d2dcd09a050ed874748e6d962f8a.png

点这里👇关注我,记得标星哦~

您可能感兴趣的与本文相关的镜像

Seed-Coder-8B-Base

Seed-Coder-8B-Base

文本生成
Seed-Coder

Seed-Coder是一个功能强大、透明、参数高效的 8B 级开源代码模型系列,包括基础变体、指导变体和推理变体,由字节团队开源

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值