后台回复【ECCV2022】获取ECCV2022所有自动驾驶方向论文!
论文链接:https://arxiv.org/pdf/2207.01223.pdf
汽车人的碎碎念
分割,作为最基础的视觉感知任务和自动驾驶底层的感知模块,承担着很重要的作用。但逐像素的标注需求饱受诟病,相比于目标框标注,属实是太太太太慢了。今天分享一篇上交投稿TPAMI的文章,论文很全面的调研了广义上的弱监督分割算法,又涵盖了语义、实例和全景三个主流的分割任务。特别是基于目标框的弱监督分割算法,未来有很大的研究价值和落地价值,相关算法如BoxInst、DiscoBox和ECCV2022的BoxLevelset已经证明了,只用目标框可以实现可靠的分割性能。论文很赞,内容很扎实,分割方向的同学一定不要错过!
摘要
近几年,分割技术获得了长足的进步。然而,当前主流的分割算法仍然需要依赖大量的标注数据,而逐像素标注十分昂贵、费时且费力。为了减轻这一负担,过去几年研究人员越来越关注构建标签高效的深度学习算法。本文全面回顾了标签高效的分割算法。为此,本文首创了一种分类法,根据不同类型的弱标签(包括无监督、粗监督、不完全监督和噪声监督)提供的监督信息和分割问题的类型(包括语义/实例/全景分割)来进行归纳。进一步,本文从一个统一的角度总结现有的标签高效分割算法,讨论如何弥补弱监督和全监督预测之间的差距——目前的算法大多基于启发式先验,如跨像素相似度、跨标签约束、跨视图一致性、跨图像关系等。最后,本文讨论了未来可能的研究方向。
简介
本文旨在为标签高效的深度分割算法提供一个全面的综述。这些方法专注于不同的任务,本文将任务定义为:语义、实例和全景分割三个方向,且具有某种类型的弱监督信息。为了针对不同的问题归纳这些方法,需要解决如下两个问题:
-
1)如何为这些方法建立分类法?
-
2)如何从统一的角度总结这些方法中使用的策略?
本文从弱标签的类型着手,如下图进行分类。该分类主要依据弱标签类型辅以分割类型进行构建:横轴和纵轴分别表示不同类型的弱监督信息和分割任务;每个交叉点表示带有对应弱标签信息的分割任务,其中实心点表示已有相关工作进行探索,空心点则表示没有。
弱监督的类型具体包括:
-
无监督:所有训练图像均无任何形式的标注,如下图(a)所示;
-
粗监督:所有训练均有标注,但标注是粗糙的,即无像素级别的标注,如下图(b)所示。依据粗标签的类型,进一步可细分为image-level的标签、box-level的标签和scribble-level的标签;
-
不完整监督:训练图像只有部分有逐像素标注,如下图(c)所示。不完全监督进一步可细分为:半监督,即部分图像有逐像素标注,其余图像没有标注;domain-specific监督,即源域有标注,目标域无标注;偏监督(也叫部分监督,partial supervision),即部分类别有逐像素标注,其余类别有粗标签,如box信息。
-
噪声监督:所有训练图像都有逐像素标注,但存在标注错误,如下图(d)所示。
下表总结了相关方向的代表性算法:
问题定义如下表所示:
无监督
无监督(语义)分割的早期阶段,主要是通过人工设计的图像特征进行聚类实现分割,如K-means和Graph Cut [55]等,用于将图像划分为多个具有高自相似性(high self-similarities)的部分。最近,随着无监督特征表示学习的快速发展,特别是MoCo [56]、SimCLR [57]、BYOL [58]等算法,无监督密集特征表示学习极大的促进了无监督分割的发展。无监督分割的目的是,对于没有任何标注的给定图像,网络需要学习密集的特征图。一个好的网络学习得到特征图有如下特性:来自相同语义区域(object/stuff)的像素具有相似的特征表示,而来自不同语义区域的像素则具有不同的特征表示。学习良好的密集特征图可以直接促进分割模型的训练。
由于没有监督信息,实现无监督分割的关键是如何获取监督信息。当前的工作试图根据一些启发式先验来生成密集的自监督信息,例如跨像素相似性、跨视图一致性和跨图像关联(cross-image relation)。
跨像素相似性
跨像素相似性(Cross-pixel similarity)表示具有高度相似线索(如颜色、亮度和纹理)的像素可能属于图像中的同一语义区域。由于该先验源自感知分组原理,因此几乎所有的无监督语义分割算法都基于此原理生成密集的自监督信息。
Hwang等[42]提出首篇用于语义分割的无监督深度学习方法SegSort。其首先使用轮廓检测器[59]、[60],通过聚类生成密集的自监督信息,即伪片段(pseudo segment)。然后,提取每个伪片段的原型,即片段内像素的均值。SegSort的训练目标是将伪片段内像素的特征表示拉向该伪片段的原型,并将其与其他伪片段区分开来。
跨视图相似性
跨视图相似性(Cross-view consistency)指一个目标在不同视图中应表现出一致性,是无监督语义分割的另一个常用的先验。该先验广泛应用于基于对比学习的方法[56]、[57]和基于孪生结构的[58]、[61]、[62]无监督表示学习,并启发了无监督密集表示学习。
跨视图一致性中的对比学习
在对比学习中,给定图像X,首先生成图像的两个视图,其中一个视图作为query ,另一个作为positive key 。对比学习的优化目标是最小化如下的对比损失:
上式也被称为InfoNCE损失。对比学习的两个关键是:1)如何生成不同的视图;2)如何确定positive/negative pairs。
Pinheiro等[63]首次将对比学习扩展到密集表示学习。他们提出了View-Agnostic Dense Representation (VADeR) [63]算法,一种像素级对比学习方法,下图对比了VADeR和图像级对比学习。
Gansbeke 等人[23],遵循VADeR [63]的思想,提出了用于无监督语义分割的MaskContrast算法,其结合了SegSort [42] 和对比学习。此外还通过数据增强为每个图像生成两个视图(一个查询视图和一个关键视图)。其他的工作如[53、66]可以具体参考相关论文。
跨视图一致性中的孪生结构
基于孪生结构的无监督表示学习也生成了一幅图像的两个视图,但它是在没有负样本的情况下最大化两个视图之间的一致性,如下图所示。通常,一个视图的表示是在线更新的,而梯度流不会传到孪生网络中[62]。此外,跨视图的一致性通
弱监督与无监督分割:深度学习中的标签效率探索

本文详细综述了弱监督分割,包括无监督、粗监督、不完全监督和噪声监督下的语义、实例和全景分割任务。研究强调了跨像素相似性、跨视图一致性、跨图像关联等先验在生成伪标签和减少监督差距中的作用。论文还探讨了未来的研究方向,如零样本分割、视觉Transformer在标签效率提升中的潜力,以及未充分研究的标签高效分割问题。
最低0.47元/天 解锁文章
1001

被折叠的 条评论
为什么被折叠?



