《Referring Image Matting》论文模型CLIPMat

原创

于 2024-03-07 16:40:39 发布 · 1.8k 阅读

·

41

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #计算机视觉

CLIPMat是针对Referring Image Matting（RIM）任务设计的新模型，它结合了预训练的CLIP模型和抠图分支。通过Context_embedded Prompt（CP）增强文本理解，Text-driven Semantic Pop-up（TSP）模块引导提取视觉语义，Multi-level Details Extractor（MDE）则用于捕获多层次细节。CLIPMat在RefMatte数据集上展示了优秀的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文的贡献

1.作者定义了一个名为RIM的新任务，旨在识别和提取与给定自然语言描述最匹配的特定前景对象的alpha matte。

2.作者建立了第一个大规模数据集RefMatte，由47,500张图像和118,749个表达区域实体组成，具有高质量的alpha matte和多种表达。

3作者提出了一种专门为RIM设计的新型基线方法CLIPMat，该方法在两种不同的RefMatte设置下（关键字和表达式两种设置）以及在真实图像上取得了令人满意的结果。

模型介绍

CLIPMat使用大规模预训练的CLIP模型作为文本和视觉主干，使用典型的抠图分支作为解码器。采用直观的上下文嵌入提示，为文本编码器提供与抠图相关的可学习特性。为了提取语义分支的高级视觉语义信息，通过文本输出特征的引导得出视觉语义特征。此外，由于与分割任务相比，RIM（Referring Image Matting）需要更多的视觉细节，因此作者设计了一个通过利用浅层特征和原始输入图像提取多层次细节的模块，旨在抠图分支中保留前景细节。

模型编码器

选择Vit-B/16和Vit-L/14做为图像编码器的backbone。

CP:Context_embedded Prompt

作者采用prompt engineering来提高RIM任务中的文本的理解能力。作者设计了两种上下文来嵌入到原始提示中，分别是预嵌入上下文和后嵌入上下文。

Pre-embedding context： 对于关键字的设置，在toke

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。