TransFGU:用于无监督语义分割的自上而下方法
1. 引言
在处理图像时,我们面临一个问题:能否通过特定的先验规则推导出语义概念,还是可以从大量的观察中归纳出语义概念?这个问题的答案决定了获取语义概念的不同方式,也为无监督语义分割任务带来了不同的范式。无监督语义分割旨在无需任何手动标注标签的情况下,实现像素级的分类作为语义概念。
一种处理无监督图像分割的方法是在特定先验知识的指导下,将低级像素分组为一些语义组,即自下而上的方式。这种方法通常假设同一语义对象中的像素在高级语义空间中共享相似的表示。然而,低级像素和高级语义嵌入之间存在很大差距。例如,两匹语义不同的马和驴在低级特征空间中可能大部分相似,而区分它们的关键在于反映语义类别独特性的小区域,如耳朵和腿。准确感知这些细微差异是生成细粒度分割的关键,但通过像素级推导很难实现。此外,一个外观具有较大类内差异的对象,如人的不同部位(头、手臂、身体等),可能导致不同部位的像素级特征不同,由于缺乏对整个对象的高级概念理解,自下而上的方法难以将这些不同的特征在高级语义空间中分组为一个整体对象。
为了缓解这些问题,提出了一种自上而下的无监督语义分割方法。该方法从 ImageNet 中归纳出的高级细粒度语义知识开始,而不是从低级视觉特征推导出高级语义概念。利用自监督学习方法 DINO 获得自注意力图的初始分割属性,其获得的语义表示对对象外观变化更具鲁棒性。然后利用获得的先验知识发现目标数据集中呈现的所有潜在语义类别,并根据它们的语义相似性将它们分组为所需数量的语义簇。通过 Grad - CAM 将高级语义信息投影到低级像素特征空间,生成各种语义类别的细粒度激活图,这些激活图作为分割模型训练的伪标签。采用自举机制迭代细化伪标签的质量,逐步提高
超级会员免费看
订阅专栏 解锁全文
3142

被折叠的 条评论
为什么被折叠?



