论文标题:Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation
论文来源:ECCV 2018
研究内容:使用图像标记进行弱监督语义分割
1. 弱监督语义分割存在问题及本文创新
大部分state-of-the-art方法通过利用底层的的线索检测器来从原始图像获取像素级的信息。比如,使用saliency detector[4, 20, 22, 42]或注意力模型[4, 42]。因为此类方法只能给出像素级的saliency/attention 信息,从生成的启发线索中难以区分语义对象的不同种类。因此,判别不同语义实例的能力成为必要。
一些诸如MSRNet[24]和S4Net[12]等saliency检测器不仅能给出灰度级的显著目标,也能提供实例级的mask。
所提方法包含:
- 注意力模块:基于salient instance的固有特征,预测其属于特定类别的概率
- 语义特征提取器:为每一个salient instance预测一个语义特征,共享相似语义信息的salient instance具有相近的语义特征
- 基于语义特征,构件相似性图,每一节点表示一个salient instance,边上的权重记录一对salient instance的语义相似性
- 使用图划分算法将图划分为子图,每一子图表示某一特定类别。
主要创新:
- the first use of salient instances in a weakly supervised segmentation framework, significantly simplifying object discrimination, and performing instance-level seg- mentation under weak supervision.
- a weakly supervised segmentation framework exploiting not only the information inside salient instances but also the relationships between all objects in the whole dataset.
2. Overv and Network Structure
- Given training images labelled only with keywords, we use an instance-level saliency segmentation network, S4Net [12], to extract salient instances from every image. 尽管salient instance包含能用以训练segmentation mask的ground-truth mask,训练分割网络时存在两方面的限制,但可以通过解决一个tag-assignmnet问题得到解决(为每一实例关联一个存在的tag或noisy tag):
- 图像有可能包含多个关键词
- S4Net检测出来的salient instance可能不包含在训练集中的类别集合中
2.1 Attention Module
一些符号:
- C:训练集中背景除外的类别数
- I:输入图像
- Attention Module预测C个attention maps
:由第i个score map经过sigmoid层而获得
考虑到图像中可能包含多个关键词,作者将网络的优化问题表示为C个独立的二分类问题,损失函数定义为:
(1)
其中,为关键词ground-truth。
假设一个salient instance的bounding box 为,该salient instance属于第i个类别的概率为:
(为什么会有负号?)
它的类别由agrmax(p)获得。
2.2 语义特征提取器(Semantic Feature Extractor)
目的:take relationships between all salient instances into consid eration
说明:使用ImageNet训练该模型
- The network architecture of the semantic feature extractor is very similar to that of a standard classifier.
- ResNet [16] is used as the backbone model. We add a GAP layer after the last layer of ResNet to obtain a 2048-channel semantic feature vector f
- During the training phase, a 1000-dimensional auxiliary classification vector y is predicted by feeding f into a 1 × 1 convolutional layer.
使用的损失:(1)standard softmax-cross entropy classification loss; (2)center loss
其中,where is the softmax-crossentropy loss,
is the ground-truth label of a training sample and
is the center of the
category.
中心更新的方式:
2.3 Tag-Assignment Algorithm
目标:分配标记时同时考虑实例本质特征,同时考虑实例之间的关系
方法:建模为图切分问题
具体描述:
- n个显著实例,对应n个语义特征,记为
- 实例j属于类别i的概率记为:
,其中,0表示噪声类别
- 实例j的类别假设被设为集合
,tag分配算法的目的是预测显著实例
的最终标签,使得如果
,则
;否则
,且满足
。其中,如果
表示实例j为噪声。
2.3.1 Construction of the Similarity Graph
图的权重W的计算:
考虑每一对顶点之间的相关性会生成一个稠密图,边的数量会随着顶点个数growing quadatically。反过来,子图的内聚性将会由子图中的顶点数量来决定。为了消除子图大小的影响,论文将图G转换为稀疏图,每一节点只保留其k个最大权值的边。试验中选择k=3.
2.3.2 The Primary Graph Partitioning Algorithm
子图的内聚性可以用矩阵形式表示
。由于
为长度为n的二值向量,该公式对子图中所有顶点的边的权值进行求和。为了最大化所有类别的内聚性,作者定义了如下的最优化问题:
,使得:
This optimization problem can easily be transformed into a standard mixed integer quadratic programing (MIQP) problem.
2.3.3 The Graph Partitioning with Attention and Noisy Vertices
In order to make use of the intrinsic characteristics of the salient instances, we reformulate the optimization problem as:
考虑到S4Net获取的类未知salient instances,一些实例可能不在训练集的类别中。进一步调整优化器,避免噪声顶点:
3. 实验设置
center loss:
使用cosine distance而不是Euclidean distance,建立相似性图
语义特征提取器由ImageNet进行训练,输入图像随机裁剪后resize为224*224大小
attention model使用标准分类器实现,骨架为ResNet50
使用DeepLab进行全监督语义分割:初始学习率2.5e-4,20K迭代后除以10进行调整,weight decay=5e-4, moment=0.9
使用mask-RCNN进行实例分割:初始学习率2e-3,每5个epoch除以10进行调整,weight decay=1e-4, moment=0.9