MLP-Mixer详解
1 主要思想
作为Google ViT团队最近刚提出的一种的CV框架,MLP-Mixer使用多层感知机(MLP)来代替传统CNN中的卷积操作(Conv)和Transformer中的自注意力机制(Self-Attention)。
MLP-Mixer整体设计简单,在ImageNet上的表现接近于近年最新的几个SOTA模型。
2 模型结构
MLP-Mixer主要包括三部分:Per-patch Fully-connected、Mixer Layer、分类器。
其中分类器部分采用传统的全局平均池化(GAP)+全连接层(FC)+Softmax的方式构成,故不进行更多介绍,下面主要针对前两部分进行解释。
2.1 Per-patch Fully-connected
FC相较于Conv,并不能获取局部区域间的信息,为了解决这个问题,MLP-Mixer通过Per-patch Fully-connected将输入图像转化为2D的Table,方便在后面进行局部区域间的信息融合。
具体来说,MLP-Mixer将输入图像相邻无重叠地划分为S个Patch,每个Pat