Rolling-Unet
pub: 2024 AAAI
[ paper] [ code]
Introduction
1 由于卷积运算固有的局域性,纯粹的CNN架构很难学习到清晰的全局(global)和远程语义(remote semantic)信息。
2 CNN和Transformer结合不能很好地平衡性能和计算成本。
3 除了将CNN和Transformer结合起来,是否还有其他方法可以同时拥有局部信息(local information)和远程依赖(long-distance dependencies)?
● 本文的主要贡献:
1 提出了一种新的远程依赖捕获方法,并构建了R-MLP模块.
2 在1的基础上,构建OR-MLP和DORMLP模块,可以获得更多方向上的远程依赖关系。
3 在2的基础上,提出Lo2模块,可同时提取局部上下文信息(local context information)和远程依赖关系(longdistance dependencies),而不增加计算负担。Lo2模块具有与3×3卷积相同的参数和计算级别。
4 在3的基础上,构造了不同参数尺度的Rolling-Unet网络。在4个数据集上,Rolling-Unet的所有尺度都超过了现有方法(all
scales of Rolling-Unet surpassed the existing methods),充分验证了我们方法的有效性。
Related Work
● 用于医学图像分割的CNN和Transformer
Swin - unet是第一个纯基于Transformer的Ushaped架构,UCTransNet引入了基于transformer的模块来替代U-Net中的跳过连接。尽管这些工作都采用了融合全局和局部特征的策略来增强模型的能力,但仍然不能满足医学图像精确分割的需求。
● 图像任务的MLP范式
MLP- mixer 是用于视觉的深度MLP网络的先驱,AS-MLP 采用两个平行分支进行水平和垂直移动。这些作品仅仅具有局部接受场,放弃了纯MLP模型捕捉全局特征的原始动机。在医学图像领域,基于MLP的分割模型还较少。
Method
●整体架构
图1展示了Rolling-Unet的整体架构,它遵循U-Net设计,由编码器-解码器、瓶颈层和跳跃连接层组成。编解码器有下采样和上采样四个阶段,分别由最大池化和双线性插值实现。编码器-解码器的前三层分别包含两个标准的3×3卷积块。第四层和瓶颈层采用特征激励块来处理特征通道的压缩和扩展,Lo2块来捕获图像的局部上下文和远程依赖关系。跳跃连接通过加法融合了相同尺度的特