ConvFormer:用于改善医学图像分割的即插即用CNN风格Transformer
1. 引言
Transformers凭借其强大的长距离依赖建模能力,成为了自然语言处理领域的标准方法。与鼓励局部性、权重共享和翻译不变性的卷积神经网络(CNNs)相比,Transformers通过自注意力层构建全局依赖,为特征提取带来了更多可能性,并突破了CNNs的性能上限。
受此启发,Transformers被引入医学图像分割领域并引起了广泛关注。在视觉Transformers中,医学图像首先被分割成一系列图像块,然后投影成一维的图像块嵌入序列。通过构建图像块/标记之间的成对交互,Transformers旨在聚合全局信息以进行鲁棒的特征提取。然而,学习收敛良好的全局依赖需要大量数据,而相对有限的医学成像数据使得Transformers的效果大打折扣。
为了探究Transformers在医学图像分割中的工作机制,我们在ACDC数据集上训练了四个最先进的基于Transformer的模型,并可视化了不同层的自注意力矩阵。结果发现,所有方法的注意力矩阵在图像块之间趋于均匀,即出现了注意力崩溃现象,尤其是在较深的层中。在CNN - Transformer混合方法中,这种现象更为明显。一方面,训练数据不足会使Transformers学习到次优的长距离依赖;另一方面,直接将CNNs与Transformers结合会使网络偏向于学习CNNs,因为在小规模训练数据上,CNNs的收敛性比Transformers更容易实现。因此,解决注意力崩溃问题并提高Transformers的收敛性对于提升性能至关重要。
为了解决这个问题,我们提出了一个即插即用的模块ConvFormer,它通过构建内核可扩展的
超级会员免费看
订阅专栏 解锁全文
193

被折叠的 条评论
为什么被折叠?



