一、背景
语义分割,旨在将图像中的所有像素进行分类,一直是计算机视觉图像领域的主要任务之一。在实际应用中,由于能准确地定位到物体所在区域并以像素级的精度排除掉背景的影响,一直是精细化识别、图像理解的可靠方式。
但是,构建语义分割数据集需要对每张图像上的每个像素进行标注。据统计,单张1280*720像素的图像分割标注时间约1.5个小时[1],而动辄上万、十万才能产生理想效果的数据集标注所需要的人力物力让实际业务项目投入产出比极低。
针对这个问题,仅需图像级标注即可达到接近的分割效果的弱监督语义分割是近年来语义分割相关方向研究的热点。该技术通过利用更简单易得的图像级标注,以训练分类模型的方式获取物体的种子分割区域并优化,从而实现图像的像素级密集性预测。
易盾算法团队经过深入调研后在实践中分析弱监督语义分割技术方向的特点,以及在实际项目上验证了其有效性,从而成功将该技术落地到实际项目中并取得了显著的项目指标提升,有效助力易盾内容安全服务精细化识别。
接下来本文将介绍弱监督语义分割的分类和常规流程,并选择该方向中有代表性的几篇论文进行简单介绍。
二、基本信息
1. 分类
根据弱监督信号的形式,常见的弱监督语义分割可分为以下四类(图1):
① 图像级标注:仅标注图像中相关物体所属的类别,是最简单的标注;
② 物体点标注:标注各个物体上某一点,以及相应类别;
③ 物体框标注:标注各个物体所在的矩形框,以及相应类别;
④ 物体划线标注:在各个物体上划一条线,以及相应类别。

图1 弱监督语义分割的分类
本文主要关注标注最简单方便的、也是最难的基于图像级标注的弱监督语义分割。
2. 基于图像级标注的弱监督语义分割步骤
基于图像级标注的弱监督语义分割大多采用多模块串联的形式进行,如图2[2]:

图2 弱监督语义分割的步骤
首先,利用图像级标注的图像类别标签通过单标签或多标签分类的方式训练出一个分类模型,该分类模型通过计算图像中相应类别的类别特征响应图CAM[3]来当作分割伪标签的种子区域;接着,使用优化算法(如CRF[4]、AffinityNet[5]等)优化和扩张种子区域,获得最终的像素级的分割伪标签;最后,使用图像数据集和分割伪标签训练传统的分割算法(如Deeplab系列[6])。
一、代表性工作
这部分主要介绍一下图像级弱监督分割中几篇典型的论文,首先会介绍弱监督分割的基础论文CAM[3],然后会介绍2篇如何获取覆盖度更广、更精准的CAM的算法(OAA[7]、SEAM[8])作为分割伪标签的种子区域,最后会介绍一篇典型的种子区域优化扩张算法Aff

本文探讨了弱监督语义分割技术,重点介绍了基于图像级标注的流程,包括CAM原理、OAA和SEAM算法改进种子区域,以及AffinityNet优化伪标签的实践应用。这些技术在提升精细化识别效率中展现了潜力。
最低0.47元/天 解锁文章
7

被折叠的 条评论
为什么被折叠?



