Mlp-Mixer 阅读笔记

本文会做对文章的解读,以及和卷积的一些对比 


摘要

Mlp-mixer是谷歌最近提出的基于纯mlp结构的cv框架。它使用多层感知机(MLP)来代替传统CNN中的卷积操作(Conv)和Transformer中的自注意力机制(Self-Attention)。MLP-Mixer整体设计简单,在ImageNet上的表现接近于近年最新的几个SOTA模型,注意并没有超过。


介绍

CNN成为CV的de-facto standard,但最近Vision Transformers (ViT),基于Self atttention 成为了一个可选项,达到了新的SOTA性能。

我们提出了MLP-Mixer,based entirely on multi-layer perceptrons (MLPs) that are repeatedly applied across either spatial locations 空间位置 or feature channels 特征通道。(听起来很类似深度可分离卷积:包括 Depthwise卷积与Pointwise卷积)

Mixer relies only on basic matrix multiplication routines, changes to data layout (reshapes and transpositions), and scalar nonlinearities.仅依赖于基本的矩阵乘法例程,  数据布局(reshape和转置)以及标量非线性。

图一是整个结构:

  1. 首先进行“Per-patch Fully-connected”,即embedding。输入a sequence of linearly projected image patches,然后将其映射为 (also referred to as tokens) 大小为“patches × channels” , 然后一直保持this dimensionality.  比方说有9个32x32x3的patch,全连接映射到9个128维度的token。
  2. 然后进入mixer- layer。一共有两种MLP层:

这两个结合起来类似深度可分离卷积,但是表达能力没有深度可分离卷积强。
深度可分离卷积把传统卷积分成逐点卷积(point-wise)和逐通道卷积(depth-wise),逐点卷积采用1x1的卷积核,改变了特征映射的通道数;然后逐通道卷积不同于传统卷积,对每个通道单独卷积,结果只改变图像分辨率不改变通道数。

token-mixing MLPs:允许不同空间位置之间的交流。类似depth-wise卷积,对所有token的相同通道进行混合。但token-mixing对不同通道都共享权重。而depth-wise卷积不同通道的卷积核参数都不一样,所以说表达能力没有深度可分离卷积强;

channel-mixing MLPs:允许不同channels特征之间的交流。类似point-wise卷积,对同一个toke

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值