CLIPSeg:使用文本和图像提示进行图像分割

摘要

图像分割通常通过为固定的对象类别集训练模型来解决。在后续引入更多类别或更复杂的查询时,成本较高,因为这需要在包含这些表达的数据集上重新训练模型。本文提出了一种系统,能够在测试时基于任意提示生成图像分割结果。提示可以是文本或图像。这种方法使我们能够为三种常见的分割任务创建一个统一的模型(只需训练一次),这些任务分别面临不同的挑战:指代表达式分割、零样本分割和单样本分割。我们以CLIP模型为骨干网络,并通过基于Transformer的解码器扩展其功能,以实现密集预测。在扩展版的PhraseCut数据集上训练后,我们的系统能够基于自由文本提示或表达查询的附加图像生成图像的二值分割图。我们详细分析了基于图像的提示的不同变体。这种新颖的混合输入方式不仅能够动态适应上述三种分割任务,还能适应任何可以基于文本或图像查询制定的二值分割任务。最后,我们发现我们的系统能够很好地适应涉及功能或属性的广义查询。代码可在https://eckerlab.org/code/clipseg获取。

1 引言

泛化到未见数据的能力是人工智能广泛应用中一个基本且重要的问题。例如,家庭机器人必须理解用户的提示,这可能涉及未见过的对象类型或不常见的对象表达方式。虽然人类在这方面表现出色,但这种推理形式对计算机视觉系统来说具有挑战性。

图像

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI专题精讲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值