论文的贡献
1.作者定义了一个名为RIM的新任务,旨在识别和提取与给定自然语言描述最匹配的特定前景对象的alpha matte。
2.作者建立了第一个大规模数据集RefMatte,由47,500张图像和118,749个表达区域实体组成,具有高质量的alpha matte和多种表达。
3作者提出了一种专门为RIM设计的新型基线方法CLIPMat,该方法在两种不同的RefMatte设置下(关键字和表达式两种设置)以及在真实图像上取得了令人满意的结果。
模型介绍
CLIPMat使用大规模预训练的CLIP模型作为文本和视觉主干,使用典型的抠图分支作为解码器。采用直观的上下文嵌入提示,为文本编码器提供与抠图相关的可学习特性。为了提取语义分支的高级视觉语义信息,通过文本输出特征的引导得出视觉语义特征。此外,由于与分割任务相比,RIM(Referring Image Matting)需要更多的视觉细节,因此作者设计了一个通过利用浅层特征和原始输入图像提取多层次细节的模块,旨在抠图分支中保留前景细节。
模型编码器
选择Vit-B/16和Vit-L/14做为图像编码器的backbone。
CP:Context_embedded Prompt
作者采用prompt engineering来提高RIM任务中的文本的理解能力。作者设计了两种上下文来嵌入到原始提示中,分别是预嵌入上下文和后嵌入上下文。
Pre-embedding context: 对于关键字的设置,在toke