WSSS论文汇总
2015
【弱监督开端】From Image-level to Pixel-level Labeling with Convolutional Networks
- CVPR 2015
论文:https://readpaper.com/pdf-annotate/note?pdfId=550157881149730816¬eId=737927329049849856 - 贡献:仅使用 image-level 的标签进行训练
- 方法:
先让图片经过一个普通CNN(OverFeat),得到一个score map(相当于分割网络最后的预测结果,几个类别就几个channel),然后将每个类别的score进行集合,文章在这里介绍了三种 aggregation layer,分别是 sum、max 和 Log-Sum-Exp(LSE),得到每个类别的权重值,如果某个类别在整幅图像上的响应程度较高,那么这个类别的所有像素点都会得到较高的权重,从而抑制了那些不相关类别的值。
为了平滑输出结果,文章提出了三种平滑策略(也可以认为是引入了三种先验信息):
SP-sppxl:使用 superpixel 方法获取超像素作为网络的输出,其中每个超像素的类别设置为在该超像素区域内出现次数最多的类别。
SP-bb:使用 BING 算法获取候选框,每个像素的输出值需要乘上包含该像素的所有候选框的分数值。
SP-seg:使用 MCG 算法获取分割结果,每个像素的输出值需要乘上包含该像素的所有候选分割区域的分数值。
2016
【code–01 CAM 弱监督语义分割基础】Learning Deep Features for Discriminative Localization
- CVPR2016:
- 论文:https://readpaper.com/pdf-annotate/note?pdfId=4667175978011738113¬eId=739999713424011264
- 贡献:
- CNN提取的feature含有位置信息,尽管我们在训练的时候并没有标记位置信息;
- 这些位置信息,可以转移到其他的认知任务当中。
- 方法:
每一层卷积层的输出乘以这一层对应分类的权重,然后对结果加权,就可以得到热成像图,最后就得到了class activation map
【code–02 SEC 弱监督分类三原则】Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation
- ECCV2016:
- 论文:https://readpaper.com/pdf-annotate/note?pdfId=4514865673536167937¬eId=737602857029709824
- 代码:https://github.com/kolesman/SEC
- 贡献:
针对于卷积神经网络不能准确预测seed的范围问题,提出了三种损失函数
Seeding Loss——对目标进行弱定位(weak localization)生成初始mask
Expansion Loss——对弱定位的mask进行合理的扩大
Constrain-to-boundary Loss——对扩大后的mask进行合理的约束,更贴近目标边界
2017
【01 STC 逐步训练】STC: A Simple to Complex Framework for Weakly-Supervised Semantic Segmentation
- TPAMI2017
- 论文:https://readpaper.com/pdf-annotate/note?pdfId=4498442311490494465¬eId=737611202444767232
- 贡献:
层层递进三个DCNN,前一个CNN的结果作为下一个CNN的输入
2018
【01 Multi-Dilated Convolution(MDC)空洞卷积的应用】: Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi-Supervised Semantic Segmentation
- CVPR 2018 :
- 论文:https://arxiv.org/pdf/1805.04574.pdf
- 贡献:
不同的膨胀率可以有效地放大卷积核的接受域,更重要的是将周围的判别信息转移到非判别目标区域,促进了非判别目标区域在目标定位图中的出现。设计了一个包含不同膨胀率卷积块的泛型分类网络。该算法能够生成密集可靠的目标定位图,有效地实现弱监督和半监督语义分割。 - 方法:
-
对于多个rate(d = 3, 6, 9)的空洞卷积层通过classification activation maps (CAM)得到 corresponding localization maps
-
虽然使用的rate都比较小,但是还是会有一些不相关的区域被映射上,所以为了平衡这个问题,本文将多个rate得到的corresponding localization maps进行加权平均,得到最终的final corresponding localization maps,就会减少不相关区域。
-
loss有两个部分组成,一个是使用final corresponding localization maps生成的分割图(a),一个是使用分割网络FCN得到的最后score map中对应的class score map和背景图的score map进行agrmax得到的分割图(b)运用(a)(b)组成联合的loss来进行弱监督学习,训练FCN。
-
这篇文章采用的半监督学习方式就是将弱监督和少量完整标签的图像的强监督学习进行参数分享来达到弱监督的方式
-
【code–02 Affinity Net 挖掘像素间的关系(random walk)】Learning Pixel-level Semantic Affinity with Image-level Supervision