TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation 论文笔记

最新推荐文章于 2024-10-11 08:04:38 发布

Tianchao龙虾

最新推荐文章于 2024-10-11 08:04:38 发布

阅读量3.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：实例分割论文笔记 Transformer 论文笔记文章标签：深度学习计算机视觉神经网络

本文链接：https://blog.youkuaiyun.com/wuchaohuo724/article/details/124367024

实例分割论文笔记同时被 2 个专栏收录

21 篇文章

订阅专栏

Transformer 论文笔记

11 篇文章

订阅专栏

TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation

论文链接： https://arxiv.org/abs/2204.05525

在这里插入图片描述

一、 Problem Statement

是否能够设计出一个mobile-friendly Vision-Transformer的网络，能够比mobileNets有更低的延迟性，但能有更好的性能。

二、 Direction

结合MobileNet和vision transformer。

三、 Method

先来看一下网络结构:

在这里插入图片描述

主要包括以下几个部分:

Token Pyramid Module (backbone)
Scale-aware Semantics Extractor (Vision Transformer)
Semantics Injection Module
Segmentation Head

1. Token Pyramid Module(backbone)

先来看一下主要的backbone。这里主要是借鉴于mobileNetv2中的blocks。可以看到，输入一张图片 $\in \R^{3\times H \times W}$ ，会生成一系列的特征图 ${T^1,...,T^N\}$ ，这里的 $N$ 代表尺度的数量。之后，这些不同尺度的特征图会通过average pooling，变成目标的大小 $\R^{\frac{H}{64} \times \frac{W}{64}}$ 。最后，这些不同层级的特征图，会拼接在一起，生成一个新的特征图。
这里作者做了几个比较实验:

Token pyramid 和Token of the last scale

可以看出多尺度的特征会带来性能的提升。
下采样的大小

为了trade-off情况下，作者选择了stride=64。

2. SASE (Vision Transformer)

这里的SASE就是transformer blocks的堆叠了，数量为L。Transformer包括multi-head attention, Feed-Forward Network和residual connections。为了保持特征图的空间大小，同时减少reshape操作的数量，作者将linear layers用1x1卷积进行替换。同时用ReLU6替换GELU。

对于Multi-head attention模块，将keys K 和 queries Q设置为16通道，values V 维度为32通道。减少K和Q的通道数，可以减少计算attention maps时候的消耗。同时，使用batch normalization替换layer normalization。因为batch normalization可以在推理的时候和卷积一起合并，加速推理。

对于feed-forward network，在两个1x1卷积中，插入一个depth-wise convolution layer，提升vision transformer局部的关联。expansion factor设置为2，来减少计算消耗。

作者认为Vision Transformer可以获得full-image的感知域和丰富的语义信息，而不是在backbone中获得。

1. the Token Pyramid Module does not aim to obtain rich semantics and large receptive field, but uses fewer blocks to build a token pyramid.

2. The Vision Transformer can obtain full-image receptive field and rich semantics.

理由如下:

global self-attention 在特征图中间交换了信息。
1x1卷积会交换不同尺度的特征图信息。
每一个transformer block，在来自所有尺度特征图交换信息后，residual mapping会被学习到，然后又相加到特征图，来加强了特征表示和语义信息。
Scale-aware 语义可以通过几个transformer blocks后获得。