原创文章,引用请注明出处:http://blog.youkuaiyun.com/tonyyang1995 谢谢!
最近在读深度学习中深度学习的论文,老板要写总结所以顺便发上来记录一下。
Learning Deconvolution Network for Semantic Segmentation 这篇论文主要优化的是传统反卷积网络的一些limitation。
传统FCN 存在的limitation:
1. 它的network pre-defined a fixed size receptive field(这个会导致比这个field 大或者小的object会fragment 或 mislabel,而且比较小的物体可能会被忽略或者被分类成背景)
2. 物体的具体结构可能会消失 因为输入的label map 比较粗糙而且deconvolution 的操作比较简单
所以即使已经使用了CRF 但是效果还是不太好。
为了解决这些问题:
作者提出了一个深度的反卷积网络。
这个网络由多个deconvolution,unpooling,relu组成。
训练的network 是应用于单独的object proposal 来获得instance-wise 分割
在VOC12 的数据集上的表现比其他的FCN-based method 要好。
它的结构图如下:
从这个图我们可以看出它的convolution 和deconvolution 是镜像的。
这里作者使用了unpooling 操作顾名思义就是把polling的操作反过来,但是因为pooling的操作不可逆,这个unpooling操作只能把传进来的特征按照原来的位置重新摆放,近似pooling 前的卷积特征。
deconvolution
这里parameter 是可以学习的。
在论文中,作者对于deep deconvolution network 的分析后发现: 越complex 的能够capture更多的细节。
从上图中我们可以发现越深的Deconvolution network 更加能够把握原图的细节信息。
而与FCN8 对比之后也证明了这一点:
而对于deep network 中local optima 的问题,作者提出了
1. batch normalization
2. two-stage training
这两个方法来解决。(这里现在仅仅知道这样有效,还不能理解为什么这样就有效,所以仅列出其方法,求大神讲解)