【阅读笔记】《ReSeg: A Recurrent Neural Network-based Model for Semantic Segmentation》

本文记录了博主阅读论文《ReSeg: A Recurrent Neural Network-based Model for Semantic Segmentation》的笔记,代码。更新于2019.05.23。

Abstract

本文提出了用于语义分割的ReSeg结构,该结构是基于此前提出的用于图像分类的ReNet所产生的。每个ReNet层由4个RNN组成(水平、竖直扫描图像),将activations或图块编码并生成相应的全局信息。同时,ReNet层堆叠在预训练的卷积层上,有利于生成generic local features(一般局部特征)。随后,应用上采样层恢复最终估计中原始图像的分辨率。

所提出的ReSeg结构高效、灵活,并适用于多种语义分割任务。

Introduction

训练空间RNN在计算量巨大。本文提出了一个高效RNN处理图像上下文信息。

Related Work

Model Description

所提出的ReSeg模型是在ReNet基础上的,将其拓展使其能够适应分割任务。模型流程包括多个阶段。

首先,输入图像经过第一阶段的VGG-16网络的层(在ImageNet上预训练,没有fine-tune,设定图像分辨率不会变得过小)。得到的特征图随后送入一个或多个ReNet层,在图像上滑动。最后,一个或多个上采样层用于对最后的特征图进行分辨率恢复,使其与输入分辨率相同,再应用softmax非线性得到每个像素点对应的类别概率分布。

循环层是这个结构的核心,由多个RNN(可以是初级的tanh RNN层)、一个Gated Recurrent Unit(GRU)层或一个LSTM层组成。根据ReNet不需要过多的回归单元,这里选择用GRU模块,因为其能够很好地平衡计算力和内存只用两者之间的关系。

下面是详细介绍。

Recurrent layer

如下图所示,每个回归层都由4个组合在一起的RNNs组成,从而获取输入数据的局部和全局空间结构。
在这里插入图片描述
在这里插入图片描述
具体而言,给定一个图像输入(或者是前层得到的特征图) X \bf X X,其中元素为 x ∈ R H × W × C x\in\mathbb R^{H\times W\times C} xRH×W×C H H H W W W C C C分别是输入的高、宽和通道数。这里将其分解为 I × J I\times J I×J个图块, p i , j ∈ R H p × W p × C p_{i,j}\in\mathbb R^{H_p\times W_p \times C} pi,jRHp×Wp×C。随后,用两个RNNs f ↓ f^{\downarrow} f f ↑ f^\uparrow f(每个有 U U U

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值