论文梳理:Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation

这篇ECCV2018论文提出了一种新的弱监督语义分割方法,通过S4Net提取显著实例,并利用注意力模块和语义特征提取器进行类别概率预测和特征学习。通过构建相似性图并应用图划分算法,解决了实例级别的分割问题。这种方法首次在弱监督框架中使用显著实例,简化了对象识别,并在没有像素级标签的情况下实现了实例分割。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文标题:Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation
论文来源:ECCV 2018

研究内容:使用图像标记进行弱监督语义分割

1. 弱监督语义分割存在问题及本文创新

大部分state-of-the-art方法通过利用底层的的线索检测器来从原始图像获取像素级的信息。比如,使用saliency detector[4, 20, 22, 42]或注意力模型[4, 42]。因为此类方法只能给出像素级的saliency/attention 信息,从生成的启发线索中难以区分语义对象的不同种类。因此,判别不同语义实例的能力成为必要。

一些诸如MSRNet[24]和S4Net[12]等saliency检测器不仅能给出灰度级的显著目标,也能提供实例级的mask。

所提方法包含:

  • 注意力模块:基于salient instance的固有特征,预测其属于特定类别的概率
  • 语义特征提取器:为每一个salient instance预测一个语义特征,共享相似语义信息的salient instance具有相近的语义特征
  • 基于语义特征,构件相似性图,每一节点表示一个salient instance,边上的权重记录一对salient instance的语义相似性
  • 使用图划分算法将图划分为子图,每一子图表示某一特定类别。

主要创新:

  • the first use of salient instances in a weakly supervised segmentation framework, significantly simplifying object discrimination, and performing instance-level seg- mentation under weak supervision.
  • a weakly supervised segmentation framework exploiting not only the information inside salient instances but also the relationships between all objects in the whole dataset.

2. Overv and Network Structure

  • Given training images labelled only with keywords, we use an instance-level saliency segmentation network, S4Net [12], to extract salient instances from every image. 尽管salient instance包含能用以训练segmentation mask的ground-truth mask,训练分割网络时存在两方面的限制,但可以通过解决一个tag-assignmnet问题得到解决(为每一实例关联一个存在的tag或noisy tag):
    1. 图像有可能包含多个关键词
    2. S4Net检测出来的salient instance可能不包含在训练集中的类别集合中

2.1 Attention Module

一些符号:

  • C:训练集中背景除外的类别数
  • I:输入图像
  • Attention Module预测C个attention maps
  • A_i:由第i个score map经过sigmoid层而获得

考虑到图像中可能包含多个关键词,作者将网络的优化问题表示为C个独立的二分类问题,损失函数定义为:

L_a = -\frac{1}{C}\sum_i^C(\bar{y}_i\log y_i +(1-\bar{y}_i)\log(1-y_i))                                                    (1)

其中,\bar{y}_i为关键词ground-truth。

假设一个salient instance的bounding box 为\left ( x_0, y_0, x_1, y_1 \right ),该salient instance属于第i个类别的概率为:

p_i=-\frac{1}{(x_1-x_0)(y_1-y_0)}\sum_{x=x_0}^{x_1}\sum_{y=y_0}^{y_1}A_i\left ( x,y \right )为什么会有负号?

它的类别由agrmax(p)获得。

2.2 语义特征提取器(Semantic Feature Extractor)

目的:take relationships between all salient instances into consid eration

说明:使用ImageNet训练该模型

  • The network architecture of the semantic feature extractor is very similar to that of a standard classifier.
  • ResNet [16] is used as the backbone model. We add a GAP layer after the last layer of ResNet to obtain a 2048-channel semantic feature vector f
  • During the training phase, a 1000-dimensional auxiliary classification vector y is predicted by feeding f into a 1 × 1 convolutional layer.

使用的损失:(1)standard softmax-cross entropy classification loss; (2)center loss

L=L_{cls} + \lambda L_c, L_c=1-\frac{f\cdot c_{\bar{y}}}{\left \| f \right \|\left \| c_{\bar{y}} \right \|}

其中,where L_{cls} is the softmax-crossentropy loss, \bar{y} is the ground-truth label of a training sample and c_{\bar{y}} is the center of the \bar{y}-th category.

中心更新的方式:

c_{\bar{y}}^{t+1}=c_{\bar{y}}^t + \alpha\cdot \left ( f-c_{\bar{y}}^t \right )

2.3 Tag-Assignment Algorithm

目标:分配标记时同时考虑实例本质特征,同时考虑实例之间的关系

方法:建模为图切分问题

具体描述:

  • n个显著实例,对应n个语义特征,记为f_j, j=1,2,\cdots, n
  • 实例j属于类别i的概率记为:p_{ij}, i=0,1,2,\cdots, C, j=1,2,\cdots,n,其中,0表示噪声类别
  • 实例j的类别假设被设为集合K_j,tag分配算法的目的是预测显著实例x_{ij}, i=0,\cdots,C, j=1,\cdots,n的最终标签,使得如果i\in K_j,则x_{ij}\in\{0, 1\};否则x_{ij}\in\{0\},且满足\sum_i x_{ij}=1。其中,如果x_{0j}=1表示实例j为噪声。

2.3.1 Construction of the Similarity Graph

图的权重W的计算:

\left\{\begin{matrix} W_{i,j}=\frac{f_i\cdot f_j}{\left \| f_i \right \|\left\|f_j\right\|} & i \neq j\\ W_{i,j}=0& i=j \end{matrix}\right.

考虑每一对顶点之间的相关性会生成一个稠密图,边的数量会随着顶点个数growing quadatically。反过来,子图的内聚性将会由子图中的顶点数量来决定。为了消除子图大小的影响,论文将图G转换为稀疏图,每一节点只保留其k个最大权值的边。试验中选择k=3.

2.3.2 The Primary Graph Partitioning Algorithm

子图i的内聚性可以用矩阵形式表示x_i^T W x_i。由于x_i为长度为n的二值向量,该公式对子图中所有顶点的边的权值进行求和。为了最大化所有类别的内聚性,作者定义了如下的最优化问题:

max_x \sum_{i=1}^C x_i^T W x_i,使得:

\sum_{i=1}^C = 1, x_{ij}\in \left \{ \begin{bmatrix} \{0,1\}& i \in K_j\\ \{0\}}& otherwise \end{bmatrix} \right.

This optimization problem can easily be transformed into a standard mixed integer quadratic programing (MIQP) problem.

2.3.3 The Graph Partitioning with Attention and Noisy Vertices

In order to make use of the intrinsic characteristics of the salient instances, we reformulate the optimization problem as:

考虑到S4Net获取的类未知salient instances,一些实例可能不在训练集的类别中。进一步调整优化器,避免噪声顶点:

3. 实验设置

center loss:\lambda=10^{-3}, \alpha=0.5

使用cosine distance而不是Euclidean distance,建立相似性图

语义特征提取器由ImageNet进行训练,输入图像随机裁剪后resize为224*224大小

attention model使用标准分类器实现,骨架为ResNet50

使用DeepLab进行全监督语义分割:初始学习率2.5e-4,20K迭代后除以10进行调整,weight decay=5e-4, moment=0.9

使用mask-RCNN进行实例分割:初始学习率2e-3,每5个epoch除以10进行调整,weight decay=1e-4, moment=0.9

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值