本专栏代码均经过测试,可以直接替换项目中的模型,一键运行!
采用最新的即插即用模块,有效涨点!!
引言
在计算机视觉领域,卷积神经网络(CNN)长期以来一直是主流架构,而Transformer结构则在自然语言处理(NLP)领域取得了巨大成功。
近年来,Vision Transformer(ViT)的出现打破了这一界限,表明Transformer也能在视觉任务中表现优异。
本文将探讨一种创新的混合架构,它结合了经典的ResNet卷积网络与Swin Transformer模块的优势。
这种混合架构的设计理念是:在保留CNN强大局部特征提取能力的同时,引入Transformer的全局建模优势。我们实现的模型在ResNet18的基础上嵌入了一个简化版的Swin Transformer Block