Recurrent U-Net for Resource-Constrained Segmentation

最新推荐文章于 2024-09-22 08:36:56 发布

原创最新推荐文章于 2024-09-22 08:36:56 发布 · 847 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

语义分割论文笔记专栏收录该内容

19 篇文章

订阅专栏

本文介绍了一种名为RecurrentU-Net的新结构，它通过集成递归单元解决了实时语义分割的问题，同时保持了高性能。与依赖预训练骨干网络的传统方法相比，RecurrentU-Net在GPU内存使用和推理时间上更为高效，适用于资源受限的环境。

1. Introduction

目前的语义分割结构倾向于集中于高分辨率和大规模数据集，并依赖于经过预训练的骨干网络（ResNet101）。这导致较高的GPU内存使用量和推理时间，在需要实时性能的环境下的操作并不理想。之前的ICNet 之类的架构已解决了这一问题，但代价是性能大幅下降，作者提出了一个新的结构来解决这个问题——Recurrent U-Net。

在这里插入图片描述
图2 循环分割（Recurrent Segmentation）。（a）将先前的分割mask s_t-1与图像x concatenating，并将其循环馈送到网络。（b）对于序列分割（sequence segmentation），要考虑网络的内部状态，可以改为将CNN与标准的循环单元结合起来。在这里，我们以（c）的U-Net结构为基础，并提出在其多个层上构建一个循环单元。

2. Related Work

解决资源受限的网络主要有两种，第一种是采用encoder-decoder的网络，第二种是多分支结构，比如空间金字塔结构。

3. Method

在这里插入图片描述

3.1. Recurrent U-Net

如图3(a),我们的U-Net encoder和decoder之间有跳跃连接，在所有卷积层中使用组归一化，作者的贡献是在分割结果 s 和网络的多个内部状态集成递归，分别是在每次循环迭代t上简单的将之间的分割mask s_t-1 与输入图像进行concatenating，和我们用循环单元代替U-Net结构的编码和解码层的自己。

下面只考虑在循环迭代t处的过程，
在这里插入图片描述第L个编码层的激活值
对应的解码层的激活值

h_t-1: 之前的隐藏张量
h_t：新的隐藏张量

我们可以选择循环单元插入的特定级别，在图3(b)中所展示的是级别为3时候的网络结构，当级别为0的时候，整个U-Net包含在其中。

3.2. Dual-gated Recurrent Unit

在这里插入图片描述
DRU借鉴了GRU的设计灵感，

z:更新门
f_z(.)表示一种编码器-解码器网络，其结构与我们用递归单元替换的U-Net部分相同
其中f_h(.)是一个与f_z(.) 具有相同结构的网络
按照元素相乘
r：重置张量（reset tensor），允许我们屏蔽用于计算hˆ的部分输入。。计算为
其中f_r(.)是一个与之间的网络具有相同结构的网络
h_t:新的隐藏状态

3.3. Single-Gated Recurrent Unit

在这里插入图片描述
DRU的缺点：DRU合并了三个编码器-解码器网络，根据级别的选择，这可能变得占用大量存储器。为了降低此成本，因此，我们引入了简化的循环单元，该单元依赖于单个门，因此被称为单门循环单元（SRU）。
具体来说，如图3（d）所示，我们的SRU具有与DRU相似的结构，但没有reset tensor r。因此，方程式与上述基本相同，除了候选隐藏状态外，我们现在将其表示为
在这里插入图片描述
这种简单的修改使我们能够从循环单元中删除一个编码器/解码器网络，正如我们的结果所示，分割精度的损失很小。

3.4. Training

在这里插入图片描述
L是总损失，N是递归数目，L_t是在迭代t处的交叉熵损失，w_t是加权系数。

在这个实验中，要么设置α= 1，要么α= 0.4

4. Experiments

作者将数据集划分为20% / 20% / 60% ，以进行训练 / 验证 / 测试。

数据集：
在这里插入图片描述

表3显示DRU-VGG16优于Ours-DRU，例如KBH上的0.02 mIoU点。 DRU-VGG16具有41.38M参数。这是Ours-DRU（4）的100倍，后者只有0.36M参数。此外，DRU-VGG16仅以18 fps运行，而Ours-DRU（4）达到61 fps。这使得DRUVGG16和其他重型模型不适合VR摄像机等嵌入式系统，而Ours-DRU可以在资源受限的环境中更容易地利用
在这里插入图片描述