【阅读笔记】《ReSeg: A Recurrent Neural Network-based Model for Semantic Segmentation》

最新推荐文章于 2024-08-28 09:40:27 发布

原创

最新推荐文章于 2024-08-28 09:40:27 发布 · 2.7k 阅读

12 ·

CC 4.0 BY-SA版权

本文记录了博主阅读论文《ReSeg: A Recurrent Neural Network-based Model for Semantic Segmentation》的笔记，代码。更新于2019.05.23。

文章目录

Abstract
Introduction
Related Work
Model Description
- Recurrent layer
- Upsampling layer
Experiments
Discussion
Conclusion

Abstract

本文提出了用于语义分割的ReSeg结构，该结构是基于此前提出的用于图像分类的ReNet所产生的。每个ReNet层由4个RNN组成（水平、竖直扫描图像），将activations或图块编码并生成相应的全局信息。同时，ReNet层堆叠在预训练的卷积层上，有利于生成generic local features（一般局部特征）。随后，应用上采样层恢复最终估计中原始图像的分辨率。

所提出的ReSeg结构高效、灵活，并适用于多种语义分割任务。

Introduction

训练空间RNN在计算量巨大。本文提出了一个高效RNN处理图像上下文信息。

Related Work

Model Description

所提出的ReSeg模型是在ReNet基础上的，将其拓展使其能够适应分割任务。模型流程包括多个阶段。

首先，输入图像经过第一阶段的VGG-16网络的层（在ImageNet上预训练，没有fine-tune，设定图像分辨率不会变得过小）。得到的特征图随后送入一个或多个ReNet层，在图像上滑动。最后，一个或多个上采样层用于对最后的特征图进行分辨率恢复，使其与输入分辨率相同，再应用softmax非线性得到每个像素点对应的类别概率分布。

循环层是这个结构的核心，由多个RNN（可以是初级的tanh RNN层）、一个Gated Recurrent Unit（GRU）层或一个LSTM层组成。根据ReNet不需要过多的回归单元，这里选择用GRU模块，因为其能够很好地平衡计算力和内存只用两者之间的关系。

下面是详细介绍。

Recurrent layer

如下图所示，每个回归层都由4个组合在一起的RNNs组成，从而获取输入数据的局部和全局空间结构。
在这里插入图片描述

具体而言，给定一个图像输入（或者是前层得到的特征图） $\bf X$ ，其中元素为 $x\in\mathbb R^{H\times W\times C}$ ， $H$ 、 $W$ 和 $C$ 分别是输入的高、宽和通道数。这里将其分解为 $I\times J$ 个图块， $p_{i,j}\in\mathbb R^{H_p\times W_p \times C}$ 。随后，用两个RNNs $f^{\downarrow}$ 和 $f^\uparrow$ （每个有 $U$ 个