在计算机视觉领域,卷积神经网络(CNN)和视觉Transformer(ViT)各有优势。
今天分享的是一种将两者巧妙结合的方案——在ResNet18基础上引入轻量化ViT模块的设计思路。
整体架构概览
这个混合网络主要由三部分组成:
-
ResNet18骨干网络:作为特征提取器,去掉了原模型的平均池化层和全连接层
-
高效ViT模块:嵌入在ResNet18的最后阶段,融合局部与全局特征
-
分类头:简单的全局平均池化+全连接层
这种设计既保留了CNN强大的局部特征提取能力,又通过轻量化的注意力机制引入了全局建模的优势。
核心组件解析
1. 高效ViT模块设计
这个轻量化ViT模块(EfficientViTBlock)有几个精妙之处:
双分支结构: