Mlp-Mixer 阅读笔记

最新推荐文章于 2025-04-25 07:30:00 发布

山城火锅有点甜

最新推荐文章于 2025-04-25 07:30:00 发布

阅读量1k

点赞数 1

分类专栏： semantic segmentation MLP 文章标签：深度学习人工智能计算机视觉

本文链接：https://blog.youkuaiyun.com/weixin_43656644/article/details/124113254

版权

本文会做对文章的解读，以及和卷积的一些对比

论文链接： https://arxiv.org/pdf/2105.05537.pdf
代码：GitHub - google-research/vision_transformer

摘要

Mlp-mixer是谷歌最近提出的基于纯mlp结构的cv框架。它使用多层感知机（MLP）来代替传统CNN中的卷积操作（Conv）和Transformer中的自注意力机制（Self-Attention）。MLP-Mixer整体设计简单，在ImageNet上的表现接近于近年最新的几个SOTA模型，注意并没有超过。

介绍

CNN成为CV的de-facto standard，但最近Vision Transformers (ViT)，基于Self atttention 成为了一个可选项，达到了新的SOTA性能。

我们提出了MLP-Mixer，based entirely on multi-layer perceptrons (MLPs) that are repeatedly applied across either spatial locations 空间位置 or feature channels 特征通道。（听起来很类似深度可分离卷积：包括 Depthwise卷积与Pointwise卷积）

Mixer relies only on basic matrix multiplication routines, changes to data layout (reshapes and transpositions), and scalar nonlinearities.仅依赖于基本的矩阵乘法例程，数据布局（reshape和转置）以及标量非线性。

图一是整个结构：

首先进行“Per-patch Fully-connected”，即embedding。输入a sequence of linearly projected image patches，然后将其映射为 (also referred to as tokens) 大小为“patches × channels” , 然后一直保持this dimensionality. 比方说有9个32x32x3的patch，全连接映射到9个128维度的token。
然后进入mixer- layer。一共有两种MLP层：

这两个结合起来类似深度可分离卷积，但是表达能力没有深度可分离卷积强。
深度可分离卷积把传统卷积分成逐点卷积（point-wise）和逐通道卷积（depth-wise），逐点卷积采用1x1的卷积核，改变了特征映射的通道数；然后逐通道卷积不同于传统卷积，对每个通道单独卷积，结果只改变图像分辨率不改变通道数。

token-mixing MLPs：允许不同空间位置之间的交流。类似depth-wise卷积，对所有token的相同通道进行混合。但token-mixing对不同通道都共享权重。而depth-wise卷积不同通道的卷积核参数都不一样，所以说表达能力没有深度可分离卷积强；

channel-mixing MLPs：允许不同channels特征之间的交流。类似point-wise卷积，对同一个toke