自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation(CAT-Seg:用于开放词汇语义分割的成本聚合)

现有的开放词汇语义分割研究利用了如CLIP这样的大规模视觉语言模型,以借助它们在开放词汇识别方面的出色能力。然而,如何将这些从图像级监督学习到的能力转移到像素级的分割任务,并在推断时处理任意未见过的类别,使得这一任务变得具有挑战性。为了解决这些问题,我们旨在通过利用类别之间的关系信息和视觉语义的聚合,以及将CLIP表示适应到像素级任务,来关注图像中的对象与给定类别之间的关联。然而,我们观察到直接优化CLIP嵌入可能会损害其开放词汇的能力。

2024-04-09 17:19:55 967 1

原创 Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP(基于掩码适应CLIP的开放词汇语义分割)

摘要讲述的是一种名为开放词汇语义分割的技术,旨在将图像划分为根据文本描述的语义区域,这些文本描述在训练期间可能未曾见过。近期的两阶段方法:(1)首先生成与类别无关的掩码提议,(2)然后利用预训练的视觉-语言模型(例如CLIP)来分类被掩码的区域。瓶颈:预训练的CLIP模型,因为它在处理被掩码的图像时表现不佳。解决方案:(1)对CLIP进行微调,使用一系列被掩码的图像区域及其对应的文本描述作为训练数据。

2024-03-27 15:46:34 2114 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除