arXiv每日学术速递 | 强强联合:CNN与Transformer融合创新提升模型性能!!

本文来源公众号“arXiv每日学术速递”,仅用于学术分享,侵权删,干货满满。

原文链接:强强联合:CNN与Transformer融合创新提升模型性能!!

CNN在图像处理中有着良好的表现,能够处理复杂的图像特征,其在处理局部特征方面表现出色,但是在处理全局信息时表现较弱。而Transformer在NLP领域中具有很好的表现,能够处理序列数据的建模和生成,其在处理全局信息方面具有优势,但是对于局部信息处理能力相对较弱。通过将CNN与Transformer进行结合,可以有效地捕捉与处理图像中的局部和全局信息,从而提高模型的性能和效果。

例如,CMT-S通过这两者的结合,开发出了一种在图像识别任务上性能优异的网络,在ImageNet上的top-1准确率达到了83.5%,同时在FLOPs上比现有的DeiT模型小14倍,比EfficientNet小2倍。

ScribFormer: Transformer Makes CNN Work Better for Scribble-based Medical Image Segmentation

方法:本文提出了一种名为ScribFormer的新方法,用于基于涂鸦的医学图像分割。该方法的核心在于结合了卷积神经网络和Transformer模型的优势,通过一个三分支结构实现这一目标。

创新点:

  • ScribFormer是首个基于Transformer的解决方案,用于基于涂鸦的医学图像分割。通过混合CNN和Transformer架构,利用CNN学习局部细节的高分辨率空间信息和Transformer编码的全局上下文。

  • 提出了ACAM一致性损失,通过训练低层卷积层在高层卷积特征的监督下,进一步改善模型性能。这种方法可以引入隐式的形状约束,提高模型在不同类别上的性能一致性。

Transfer Learning for Microstructure Segmentation with CS-UNet: A Hybrid Algorithm with Transformer and CNN Encoders

方法:本文提出了一种名为CS-UNet的混合网络,用于显微图像的图像分割任务。该网络结合了卷积神经网络和Transformer编码器的优势,通过并行使用CNN来提取低级特征和Swin Transformer来提取全局上下文特征,然后通过跳跃连接在解码器的不同阶段融合这些特征。

创新点:

  • CS-UNet结合了CNN和Transformer编码器,利用CNN的局部特征提取能力和Transformer的全局特征捕捉能力,提高了图像分割的性能。

  • CS-UNet的设计允许使用不同的CNN家族(如EfficientNet、ResNet、MobileNet等)和不同的预训练模型,提供了在不同任务中调整和优化模型的灵活性。

Learned Image Compression with Mixed Transformer-CNN Architectures

方法:本文提出了一种结合卷积神经网络和Transformer的混合架构,用于学习图像压缩。文章设计了高效的Transformer-CNN混合块,通过并行处理CNN的局部特征和Transformer的全局特征,提升了图像压缩的性能。

创新点:

  • 本文首次提出将CNN和Transformer结合到图像压缩任务中,通过并行混合TCM块,充分利用了两者的优势。

  • 设计了一个通道自回归熵模型,通过SWAtten模块提高了熵模型的性能,使得模型在编码过程中能够更有效地捕捉图像的统计特性。

CMT: Convolutional Neural Networks Meet Vision Transformers

方法:本文提出了一种名为CMT(Convolutional Neural Networks Meet Vision Transformers)的新型混合网络架构,旨在结合CNN和Transformer的优势以提高图像识别任务的性能。CMT通过局部感知单元提取局部信息,轻量级多头自注意力模块捕获长距离依赖,以及倒置残差前馈网络进一步转换特征。CMT采用多阶段设计,逐步降低特征图分辨率并增加特征维度,以提取多尺度特征。

创新点:

  • CMT是首个将CNN和Transformer结合的混合架构,旨在充分利用两者的优势,同时解决纯Transformer在视觉任务中的局限性。

  • 提出了LPU来增强模型对局部信息的捕获能力,通过深度卷积来提取局部特征,增强了模型对图像局部结构的感知。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值