1.Introduction
大多image-level weakly监督方法步骤:
1) 使用class activation map (CAM)模型提取高分类置信度区域作为初始种子点。
2)精调种子点以获得伪标签。
3) 训练一个全监督网络,利用这些伪标签得到分割结果。
现存方法多集中于2),比如使用亲和性矩阵去调整初始化种子点,但这些方法都针对局部亲和性关系,忽略了图像一致性信息。本文提出超像素引导机制,同时利用超像素的局部和全局一致性,去获取更好的全局亲和性信息。
2.Method
算法包括:分割模型和Mine Superpixel Guidance (MSG),轮流交替训练。先前的方法多利用CAM中高置信度的定位,但CAM中可利用的信息是有限的,本文引入额外信息引导。
Initial segmentation seeds:CAM+CRF、CAM=多标签分类网络+GAP
Mine pixel-level affinity:像素亲和性矩阵在网络中直接应用的难点:1)计算量大,因为亲和性矩阵很大,很难训练。2)依靠只含有局部信息的CAM很难获得靠谱的全局亲和性。因为,我们只计算一个距离阈值内的像素间亲和性。
相邻像素之间的语义相似性对于使用随机游走算法将置信类标签传播到相邻区域是最有益的。 对于非相邻像素,它们的语义关系很弱。 因此,这些像素之间的相似性的置信度通常很低。 忽略它们的相似性对我们工作的表现几乎没有影响。
Mine superpixel guided regions:
本文用CAM得到的分割结果作为新的种子点。
Local Consistency: All pixels within the same superpixel are likely to have the same semantic label.
Global Consistency:superpixels belonging to the same class have some common semantic features.