本文记录了博主阅读论文《ReSeg: A Recurrent Neural Network-based Model for Semantic Segmentation》的笔记,代码。更新于2019.05.23。
文章目录
Abstract
本文提出了用于语义分割的ReSeg结构,该结构是基于此前提出的用于图像分类的ReNet所产生的。每个ReNet层由4个RNN组成(水平、竖直扫描图像),将activations或图块编码并生成相应的全局信息。同时,ReNet层堆叠在预训练的卷积层上,有利于生成generic local features(一般局部特征)。随后,应用上采样层恢复最终估计中原始图像的分辨率。
所提出的ReSeg结构高效、灵活,并适用于多种语义分割任务。
Introduction
训练空间RNN在计算量巨大。本文提出了一个高效RNN处理图像上下文信息。
Related Work
Model Description
所提出的ReSeg模型是在ReNet基础上的,将其拓展使其能够适应分割任务。模型流程包括多个阶段。
首先,输入图像经过第一阶段的VGG-16网络的层(在ImageNet上预训练,没有fine-tune,设定图像分辨率不会变得过小)。得到的特征图随后送入一个或多个ReNet层,在图像上滑动。最后,一个或多个上采样层用于对最后的特征图进行分辨率恢复,使其与输入分辨率相同,再应用softmax非线性得到每个像素点对应的类别概率分布。
循环层是这个结构的核心,由多个RNN(可以是初级的tanh RNN层)、一个Gated Recurrent Unit(GRU)层或一个LSTM层组成。根据ReNet不需要过多的回归单元,这里选择用GRU模块,因为其能够很好地平衡计算力和内存只用两者之间的关系。
下面是详细介绍。
Recurrent layer
如下图所示,每个回归层都由4个组合在一起的RNNs组成,从而获取输入数据的局部和全局空间结构。


具体而言,给定一个图像输入(或者是前层得到的特征图) X \bf X X,其中元素为 x ∈ R H × W × C x\in\mathbb R^{H\times W\times C} x∈RH×W×C, H H H、 W W W和 C C C分别是输入的高、宽和通道数。这里将其分解为 I × J I\times J I×J个图块, p i , j ∈ R H p × W p × C p_{i,j}\in\mathbb R^{H_p\times W_p \times C} pi,j∈RHp×Wp×C。随后,用两个RNNs f ↓ f^{\downarrow} f↓和 f ↑ f^\uparrow f↑(每个有 U U U个

最低0.47元/天 解锁文章
313

被折叠的 条评论
为什么被折叠?



