はなHANA__-优快云博客

原创 CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation（CAT-Seg：用于开放词汇语义分割的成本聚合）

现有的开放词汇语义分割研究利用了如CLIP这样的大规模视觉语言模型，以借助它们在开放词汇识别方面的出色能力。然而，如何将这些从图像级监督学习到的能力转移到像素级的分割任务，并在推断时处理任意未见过的类别，使得这一任务变得具有挑战性。为了解决这些问题，我们旨在通过利用类别之间的关系信息和视觉语义的聚合，以及将CLIP表示适应到像素级任务，来关注图像中的对象与给定类别之间的关联。然而，我们观察到直接优化CLIP嵌入可能会损害其开放词汇的能力。

2024-04-09 17:19:55 1520 1

原创 Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP（基于掩码适应CLIP的开放词汇语义分割）

摘要讲述的是一种名为开放词汇语义分割的技术，旨在将图像划分为根据文本描述的语义区域，这些文本描述在训练期间可能未曾见过。近期的两阶段方法：（1）首先生成与类别无关的掩码提议，（2）然后利用预训练的视觉-语言模型（例如CLIP）来分类被掩码的区域。瓶颈：预训练的CLIP模型，因为它在处理被掩码的图像时表现不佳。解决方案：（1）对CLIP进行微调，使用一系列被掩码的图像区域及其对应的文本描述作为训练数据。

2024-03-27 15:46:34 2692 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人