基本情况
这是ICCV2015的一篇文章,所属领域为semantic segmentation.这篇文章比SegNet早.
Abstract
提出深度反卷积网络: 是在vgg16的顶部添加反卷积层.反卷积层由deconvolution、relu和upooling组成.
通过把每一张图片的不同的proposal送入deploy的网络,通过aggregate得到最后的语义分割结果.
改进之处: 针对基于FCN的方法(FCN感受野固定),实现处理精细的结构以及不同尺度大小的目标.
Introduction
基于FCN的方法最大优势是:输入整张图片、快速运行、准确推理.
基于FCN的方法的缺点是:(1)感受野固定,导致过大的物体可能不会被分块或不连续,过小的物体容易被忽视.FCN虽然使用了skip architecture,但是根本的解决方案是详细的边界和语义.(2)输入反卷积层的label map太粗糙,反卷积过程太简单,使得物体的细节信息丢失或被平滑.
为了解决上述两个问题,本文有一下主要贡献:(1)提出了一个deep deconvolution network.(2)对于每张图片使用多个proposal进行预测,最后进行aggregate,得到最后的预测结果.(3)将FCN的结果和本文的结果结合起来,获得目前最好的语义分割结果.
System Architecture
总体架构 在VGG16的基础上,移除softmax层,添加对称的deconvolution、unpooling、relu.
Pooling层
的作用是通过在一个感受野提取代表性的激活值,来过滤激活噪声;优点是在上层保留鲁棒的激活值,有利于分类;缺点是pooling 过程中一个感知野的空间信息丢失,不利于semantic segmentation等要求精确定位的任务;本文给出的解决方法是首先在pooling的时候