CLIPSeg：使用文本和图像提示进行图像分割

AI专题精讲

已于 2025-05-12 15:50:20 修改

阅读量269

点赞数 3

分类专栏：大模型专题系列 CUDA C++编程系列专题文章标签：人工智能

于 2025-02-14 08:55:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_39698985/article/details/145624944

版权

大模型专题系列同时被 2 个专栏收录

111 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

CUDA C++编程系列专题

25 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

摘要

图像分割通常通过为固定的对象类别集训练模型来解决。在后续引入更多类别或更复杂的查询时，成本较高，因为这需要在包含这些表达的数据集上重新训练模型。本文提出了一种系统，能够在测试时基于任意提示生成图像分割结果。提示可以是文本或图像。这种方法使我们能够为三种常见的分割任务创建一个统一的模型（只需训练一次），这些任务分别面临不同的挑战：指代表达式分割、零样本分割和单样本分割。我们以CLIP模型为骨干网络，并通过基于Transformer的解码器扩展其功能，以实现密集预测。在扩展版的PhraseCut数据集上训练后，我们的系统能够基于自由文本提示或表达查询的附加图像生成图像的二值分割图。我们详细分析了基于图像的提示的不同变体。这种新颖的混合输入方式不仅能够动态适应上述三种分割任务，还能适应任何可以基于文本或图像查询制定的二值分割任务。最后，我们发现我们的系统能够很好地适应涉及功能或属性的广义查询。代码可在https://eckerlab.org/code/clipseg获取。

1 引言

泛化到未见数据的能力是人工智能广泛应用中一个基本且重要的问题。例如，家庭机器人必须理解用户的提示，这可能涉及未见过的对象类型或不常见的对象表达方式。虽然人类在这方面表现出色，但这种推理形式对计算机视觉系统来说具有挑战性。

图像

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI专题精讲 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。