UCTransNet:从transformer的通道角度重新思考U-Net中的跳跃连接
AAAI Conference on Artificial Intelligence 2022
最近的很多医疗语义分割方法都采用了带有编解码器结构的U-Net框架,但是U-Net采用简单的跳跃连接方案对于全局多尺度问题进行建模仍然具有挑战性:
![]() |
对于U-Net的扩展,本质上有两个关键问题:编码器中的哪些特征层连接到解码器,用于通过对多尺度特征进行聚集来对全局上下文进行建模,以及如何有效地将这些特征与可能的语义间隙相融合,而不是简单地进行连接。存在两个语义鸿沟:多尺度编码器特征之间的语义鸿沟以及编码器和解码器阶段之间的语义鸿沟,限制了分割性能。
为了克服上述限制,学者们引入了许多方法来缓解融合这两组不兼容特征时的差异。一种方法是用嵌套密集跳跃路径直接替换普通跳跃连接,最有代表性的方法是UNet++(通过引入具有一系列卷积的密集连通性来缩小编码器和解码器子网络之间的语义差距,并实现更好的分段性能)这是对U-Net中只融合相同尺寸的特征图的限制性跳跃连接的改进;另一种方法侧重于通过对从编码器阶段传播的特征引入额外的非线性变换(残差连接)来加强跳跃连接,在某种程度上平衡语义间隙。

1.没有跳跃连接的U-Net在某些数据集上比原有的U-Net分割效果好,表明Skip connection并不总是对语义分割有益;
2.尽管UNet-All比UNet-None性能更好,但并不是所有简单复制的Skip connection都对语义分割有用,每个Skip connection的贡献是不同的; 而且,由于编码器和解码器阶段的特征集不兼容的问题,一些Skip connection对分割性能有负面影响;
3.对于不同的数据集,Skip connection的最佳组合是不同的,进一步证实了在特征融合中引入更合适的动作而不是简单的连接的必要性。
TransUNet是第一个基于Transformer的医学图像分割框架;Valanarasu等人提出了一种门控轴向注意模型MedT,以克服医学成像中数据样本数量少的问题;在实现最先进性能的Swin Transformer的激励下,Swin-Unet提出了第一个纯基于Transformer的U型架构,该架构引入Swin Transformer来取代U-Net中的卷积块,但上述方法主要针对的是卷积运算的缺陷,而不是U-Net本身,可能会造成结构冗余,计算成本过高。
目前基于transformer的分割方法主要是对U-Net的编码器进行改进,以简单的方式将Transformer与U-Net融合(即将Transformer模块插入编码器或融合两个独立分支)但是,作者认为目前U-Net模型的潜在限制是skip connection的问题,而不是原始U-Net的编码器的问题。
基于研究结果,作者提出了一个新的细分框架UCTransNet(在U-Net中提出了一个CTrans模块),从通道注意力机制的视角出发。具体来说,CTrans(Channel Transformer))模块是U-Net skip connections的替代,其中一个子模块用于与Transformer进行多尺度通道交叉融合(CCT),另一个子模块Channel-wise Cross-attention(CCA)用于引导融合的多尺度通道信息与解码器特征有效连接以消除歧义。
提出了新的视角来提高语义分割的性能(通过更有效的特征融合和多尺度的通道交叉注意力来弥补low-level和high-level特征之间的语义和分辨率差距,以捕获更复杂的通道依赖;由CCT和CCA组成的连接代替原有的skip connections,解决语义空白,实现精确的医学图像自动分割。


4481

被折叠的 条评论
为什么被折叠?



