- 博客(7)
- 收藏
- 关注
原创 Emerging Properties in Self-Supervised Vision Transformers学习笔记
在本文中,我们质疑自监督学习是否为ViT提供了与卷积网络相比突出的新特性。除了将自监督方法适应于这种架构特别有效的事实之外,我们还进行了以下观察:首先,自监督ViT特征包含关于图像语义分割的明确信息,这在监督ViT和卷积网络中都没有清晰地出现。我们的研究还强调了momentum encoder[33]、multi-crop learning[10]以及使用small patches of ViTs的重要性。我们将我们的发现应用到一种简单的自我监督方法中,称为DINO。
2023-12-20 15:30:20
1231
1
原创 Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation学习笔记
本文研究弱开放词汇语义分割问题(WOVSS)。该问题学习使用图像-文本对(image-text pairs)来分割任意类别(arbitrary classes)的对象。现有的工作通过引入显式分组识别来增强普通视觉transformer。然而,这些方法在group tokens的使用方面存在粒度不一致的问题。我们认为,这种差异源于对每个group token缺乏详细的监督文从原型知识中探索了对group token的。为了弥补这种粒度差距,本文从原型知识中探索了对group token的显式监督。
2023-12-20 14:31:48
940
1
原创 Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation学习笔记
开放词汇语义分割,需要在推理时分割出新的类别。最近研究探索了视觉语言预训练来处理,但在实际场景中受到低质量的文本类别名称的影响。例如,当遇到简短或不完整的名称产生歧义、未出现在预训练的词典中的新词以及用户难以描述的类别时,通常会出现例外情况。为了解决这些问题,这项工作提出了一个新的分解聚合框架,灵感来自于人类理解新概念的认知。具体来说,在分解阶段,将类名解耦为不同的属性描述,以丰富语义上下文。在聚合阶段,将不同的属性组合成一个完整的全局描述,形成一个区分目标对象和其他对象的判别分类器。
2023-12-20 13:39:04
1918
1
原创 Vision-and-Language Pre-training学习笔记(bryanyzhu)
本文大部分内容是根据up主bryanyzhu讲解的小笔记,用于记录自己的学习,会有一些漏记误记的地方,请各位大佬在阅读的时候及时指正。
2023-12-06 16:08:07
757
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人