弱监督语义分割的自适应空间二元交叉熵损失
1. 引言
语义分割旨在为图像的每个像素分配标签,在深度神经网络(DNN)的推动下取得了显著进展。然而,全监督语义分割需要像素级注释,成本高且耗时。因此,研究人员开始采用更廉价的替代方案,如边界框、涂鸦、点和图像级标签。其中,图像级标签可以直接从现有数据集获取,或者在构建大规模数据集时,网络搜索引擎可以自动提供图像和相应的类别标签。所以,基于图像级标签的方法成本最低,成为弱监督语义分割(WSSS)的主流。
大多数基于图像级标签的WSSS方法依赖类激活图(CAMs)来生成语义分割网络训练的初始伪标签。由于分类网络的特性,CAMs倾向于突出有区分性的对象区域,而不是完整的对象区域,这与语义分割的要求存在偏差。在这种情况下,以往的WSSS工作大多致力于扩展CAMs的激活区域。常见的解决方案包括使用多个膨胀卷积块和不同时期的网络来获取和融合多个高亮区域。但这些方法在面对非常规对象大小和形状时容易出现过度激活或激活不足的情况,并且其效果高度依赖超参数,影响了泛化能力。
在实践中,初始伪标签中前景区域的大小可以通过阈值进行调整,较小的阈值通常意味着较大的前景区域。然而,分类网络通常忽略了不同像素之间的特征区分,特别是非区分性前景区域和背景区域的像素。使用全局阈值来划分所有图像的精确目标对象边界既困难又不合理。因此,提高初始伪标签质量的关键在于增强前景和背景像素之间的区分度,以便在推理过程中轻松识别对象边界。
传统的二元交叉熵(BCE)损失是基于整个概率图的平均值计算的,所有像素都朝着相同的方向进行优化,这降低了前景和背景之间的区分度。为此,我们提出了一种新颖的空间二元交叉熵(Spatial-BCE)损失,它可以分别优化前景和背景像
超级会员免费看
订阅专栏 解锁全文
198

被折叠的 条评论
为什么被折叠?



