本文来源公众号“arXiv每日学术速递”,仅用于学术分享,侵权删,干货满满。
原文链接:强强联合:CNN与Transformer融合创新提升模型性能!!
CNN在图像处理中有着良好的表现,能够处理复杂的图像特征,其在处理局部特征方面表现出色,但是在处理全局信息时表现较弱。而Transformer在NLP领域中具有很好的表现,能够处理序列数据的建模和生成,其在处理全局信息方面具有优势,但是对于局部信息处理能力相对较弱。通过将CNN与Transformer进行结合,可以有效地捕捉与处理图像中的局部和全局信息,从而提高模型的性能和效果。
例如,CMT-S通过这两者的结合,开发出了一种在图像识别任务上性能优异的网络,在ImageNet上的top-1准确率达到了83.5%,同时在FLOPs上比现有的DeiT模型小14倍,比EfficientNet小2倍。
ScribFormer: Transformer Makes CNN Work Better for Scribble-based Medical Image Segmentation
方法:本文提出了一种名为ScribFormer的新方法,用于基于涂鸦的医学图像分割。该方法的核心在于结合了卷积神经网络和Transformer模型的优势,通过一个三分支结构实现这一目标。

创新点:
-
ScribFormer是首个基于Transformer的解决方案,用于基于涂鸦的医学图像分割。通过混合CNN和Transformer架构,利用CNN学习局部细节的高分辨率空间信息和Transformer编码的全局上下文。
-
提出了ACAM一致性损失,通过训练低层卷积层在高层卷积特征的监督下,进一步改善模型性能。这种方法可以引入隐式的形状约束,提高模型在不同类别上的性能一致性。

Transfer Learning for Microstructure Segmentation with CS-UNet: A Hybrid Algorithm with Transformer and CNN Encoders
方法:本文提出了一种名为CS-UNet的混合网络,用于显微图像的图像分割任务。该网络结合了卷积神经网络和Transformer编码器的优势,通过并行使用CNN来提取低级特征和Swin Transformer来提取全局上下文特征,然后通过跳跃连接在解码器的不同阶段融合这些特征。

创新点:
-
CS-UNet结合了CNN和Transformer编码器,利用CNN的局部特征提取能力和Transformer的全局特征捕捉能力,提高了图像分割的性能。
-
CS-UNet的设计允许使用不同的CNN家族(如EfficientNet、ResNet、MobileNet等)和不同的预训练模型,提供了在不同任务中调整和优化模型的灵活性。

Learned Image Compression with Mixed Transformer-CNN Architectures
方法:本文提出了一种结合卷积神经网络和Transformer的混合架构,用于学习图像压缩。文章设计了高效的Transformer-CNN混合块,通过并行处理CNN的局部特征和Transformer的全局特征,提升了图像压缩的性能。

创新点:
-
本文首次提出将CNN和Transformer结合到图像压缩任务中,通过并行混合TCM块,充分利用了两者的优势。
-
设计了一个通道自回归熵模型,通过SWAtten模块提高了熵模型的性能,使得模型在编码过程中能够更有效地捕捉图像的统计特性。

CMT: Convolutional Neural Networks Meet Vision Transformers
方法:本文提出了一种名为CMT(Convolutional Neural Networks Meet Vision Transformers)的新型混合网络架构,旨在结合CNN和Transformer的优势以提高图像识别任务的性能。CMT通过局部感知单元提取局部信息,轻量级多头自注意力模块捕获长距离依赖,以及倒置残差前馈网络进一步转换特征。CMT采用多阶段设计,逐步降低特征图分辨率并增加特征维度,以提取多尺度特征。

创新点:
-
CMT是首个将CNN和Transformer结合的混合架构,旨在充分利用两者的优势,同时解决纯Transformer在视觉任务中的局限性。
-
提出了LPU来增强模型对局部信息的捕获能力,通过深度卷积来提取局部特征,增强了模型对图像局部结构的感知。

THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。
2110

被折叠的 条评论
为什么被折叠?



