arXiv每日学术速递 | 强强联合：CNN与Transformer融合创新提升模型性能！！

CNN与Transformer融合提升模型性能

最新推荐文章于 2025-09-28 16:45:12 发布

原创最新推荐文章于 2025-09-28 16:45:12 发布 · 2.1k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #transformer #人工智能 #深度学习 #算法 #python #神经网络

深度学习拓展阅读专栏收录该内容

991 篇文章

订阅专栏

本文来源公众号“arXiv每日学术速递”，仅用于学术分享，侵权删，干货满满。

原文链接：强强联合：CNN与Transformer融合创新提升模型性能！！

CNN在图像处理中有着良好的表现，能够处理复杂的图像特征，其在处理局部特征方面表现出色，但是在处理全局信息时表现较弱。而Transformer在NLP领域中具有很好的表现，能够处理序列数据的建模和生成，其在处理全局信息方面具有优势，但是对于局部信息处理能力相对较弱。通过将CNN与Transformer进行结合，可以有效地捕捉与处理图像中的局部和全局信息，从而提高模型的性能和效果。

例如，CMT-S通过这两者的结合，开发出了一种在图像识别任务上性能优异的网络，在ImageNet上的top-1准确率达到了83.5%，同时在FLOPs上比现有的DeiT模型小14倍，比EfficientNet小2倍。

ScribFormer: Transformer Makes CNN Work Better for Scribble-based Medical Image Segmentation

方法：本文提出了一种名为ScribFormer的新方法，用于基于涂鸦的医学图像分割。该方法的核心在于结合了卷积神经网络和Transformer模型的优势，通过一个三分支结构实现这一目标。

创新点：

ScribFormer是首个基于Transformer的解决方案，用于基于涂鸦的医学图像分割。通过混合CNN和Transformer架构，利用CNN学习局部细节的高分辨率空间信息和Transformer编码的全局上下文。
提出了ACAM一致性损失，通过训练低层卷积层在高层卷积特征的监督下，进一步改善模型性能。这种方法可以引入隐式的形状约束，提高模型在不同类别上的性能一致性。

Transfer Learning for Microstructure Segmentation with CS-UNet: A Hybrid Algorithm with Transformer and CNN Encoders

方法：本文提出了一种名为CS-UNet的混合网络，用于显微图像的图像分割任务。该网络结合了卷积神经网络和Transformer编码器的优势，通过并行使用CNN来提取低级特征和Swin Transformer来提取全局上下文特征，然后通过跳跃连接在解码器的不同阶段融合这些特征。

创新点：

CS-UNet结合了CNN和Transformer编码器，利用CNN的局部特征提取能力和Transformer的全局特征捕捉能力，提高了图像分割的性能。
CS-UNet的设计允许使用不同的CNN家族（如EfficientNet、ResNet、MobileNet等）和不同的预训练模型，提供了在不同任务中调整和优化模型的灵活性。

Learned Image Compression with Mixed Transformer-CNN Architectures

方法：本文提出了一种结合卷积神经网络和Transformer的混合架构，用于学习图像压缩。文章设计了高效的Transformer-CNN混合块，通过并行处理CNN的局部特征和Transformer的全局特征，提升了图像压缩的性能。

创新点：

本文首次提出将CNN和Transformer结合到图像压缩任务中，通过并行混合TCM块，充分利用了两者的优势。
设计了一个通道自回归熵模型，通过SWAtten模块提高了熵模型的性能，使得模型在编码过程中能够更有效地捕捉图像的统计特性。

CMT: Convolutional Neural Networks Meet Vision Transformers

方法：本文提出了一种名为CMT（Convolutional Neural Networks Meet Vision Transformers）的新型混合网络架构，旨在结合CNN和Transformer的优势以提高图像识别任务的性能。CMT通过局部感知单元提取局部信息，轻量级多头自注意力模块捕获长距离依赖，以及倒置残差前馈网络进一步转换特征。CMT采用多阶段设计，逐步降低特征图分辨率并增加特征维度，以提取多尺度特征。