[DIS]Deep Dual Learning for Semantic Image Segmentation

Abstract

ICCV2017的文章,港中文,中山和商汤合作.
本文认为现在的语义分割的性能并没有完全被开发出来,原因是需要大量的pixel级别的标注。本文的目的就是提出dual image segmentation(DIS),半监督来提高分割效率。DIS的三个主要优点是: (1)利用tags来提高labelmap的结果 (2) 能够clean tags that have noises (3) 大幅度减少训练过程中pixel-level annotation的需要.
最终完成了SOTA on Pascal VOC 2012 without CRF/MRF.

Introduction

1  
如图,现在的语义分割半监督的方法主要有两种,一种是a所示的:分类和分割联合训练,但是分割只在有分割时进行Loss的BP,两一种方法是b所示,使用tags来提高labemap的性能,一个做法就是连接label到tag一个1x1的卷积的进行BP.

Motivataion

在本文看来,以上介绍的b方法虽然tag能够帮助训,但是没有物体的边界和形状信息,而且tag本身也可能存在噪音.
本文为了解决以上问题,提出了DIS inspired by the dual learning in machine learning.

Framework

基本想法就是图片I可以得到ground truth,同理ground truth也可以得到图片I’,如果I和I’十分接近,就可以认为得到的ground truth比较好(gt 是经过一部分强监督进行训练的).并且这个过程是可以通过半监督实现的.
1  
框架分四个部分,第一部分是ResNet101提取特征,然后U网络是labelmap prediction,V网络是tag classification.

Detail in training

  • Fully-supervised Stage
    三阶段: 先训练resnet, subnet-1, subnet-3,然后固定上边的参数训练subnet-2,最后联合训练四个模块
  • Semi-supervised Stage
    两个阶段: 先固定网络参数,将通过u1和v1作为变量,优化z3等于原图来获得更好的,然后利用获得的u1和v1来计算出Lw和T’w,将两者作为ground truth对网络参数优化.

测试

存在迭代

Experiment

结果是当时的SOTA,质的飞跃,目前半监督里最好的结果,强监督里仅次于deeplabv3.

1

Others

没有公开的代码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值