- 博客(2)
- 收藏
- 关注
原创 CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation(CAT-Seg:用于开放词汇语义分割的成本聚合)
现有的开放词汇语义分割研究利用了如CLIP这样的大规模视觉语言模型,以借助它们在开放词汇识别方面的出色能力。然而,如何将这些从图像级监督学习到的能力转移到像素级的分割任务,并在推断时处理任意未见过的类别,使得这一任务变得具有挑战性。为了解决这些问题,我们旨在通过利用类别之间的关系信息和视觉语义的聚合,以及将CLIP表示适应到像素级任务,来关注图像中的对象与给定类别之间的关联。然而,我们观察到直接优化CLIP嵌入可能会损害其开放词汇的能力。
2024-04-09 17:19:55
967
1
原创 Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP(基于掩码适应CLIP的开放词汇语义分割)
摘要讲述的是一种名为开放词汇语义分割的技术,旨在将图像划分为根据文本描述的语义区域,这些文本描述在训练期间可能未曾见过。近期的两阶段方法:(1)首先生成与类别无关的掩码提议,(2)然后利用预训练的视觉-语言模型(例如CLIP)来分类被掩码的区域。瓶颈:预训练的CLIP模型,因为它在处理被掩码的图像时表现不佳。解决方案:(1)对CLIP进行微调,使用一系列被掩码的图像区域及其对应的文本描述作为训练数据。
2024-03-27 15:46:34
2114
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人