用于医学图像分割的编码器激活扩散和解码器变压器融合网络
摘要:
多年来,医学图像分割在协助医疗保健专业人员治疗疾病方面发挥了至关重要的作用。卷积神经网络在这一领域取得了显著的成功。在这些网络中,编码器-解码器结构是医学图像分割的经典有效模型。
然而,仍有一些挑战有待解决,包括边界不清引起的分割问题,不规则形状图像的分割困难,以及小目标病变的准确分割。为了解决这些限制,我们提出了编码器激活扩散和解码器变压器融合网络(ADTF)。具体而言,我们提出了一种由门控注意机制组成的轻量级卷积调制(LCM),利用卷积对空间特征进行编码。LCM取代了编解码器网络中的卷积层。此外,为了增强空间信息的整合,动态提取更有价值的高阶语义信息,我们在编码器(EAD)之后引入激活扩散块(Activation Diffusion Blocks),使网络能够分割出完整的医学分割图像。此外,我们在解码器上利用基于transformer的多尺度特征融合模块(MDFT)来实现多尺度特征的全局交互。为了验证我们的方法,我们在多个医学图像分割数据集上进行了实验。实验结果表明,我们的模型在常用的评估指标上优于其他最先进的(SOTA)方法。
1 介绍
随着时代的发展,医院对医学图像分割有了更加准确、可靠的要求。卷积神经网络逐渐利用了这方面的优势。U-Net[19]由编码器-解码器架构组成,广泛应用于医学图像分割。在此基础上,研究人员提出了一些特征增强方法[10,15,24]来提高分割性能。
医学图像往往表现出广泛的尺度的目标对象,导致潜在的分割错误。为了解决这一挑战,Rahman等[13]在MultiResUNet中引入了带有残差结构的ResPath,以改善编码器和解码器之间的连接问题。此外,Wang等人[20]率先使用变压器实现编码器和解码器层之间的连接。随着对更好的医学图像分割需求的增加,模型架构变得越来越大和复杂。为了解决这个问题,Chollet等[6]提出了Xception模型,该模型引入了深度可分离卷积的概念,显著减少了参数数量和计算复杂度。同样,在GhostNet[11]中,对一个特征图进行线性运算,生成更多相似的特征图,有效地减少了参数。
过多的卷积运算可能导致空间信息的丢失。Azad等人[5]提出了CE-Net,在编码器结构中加入了数模转换模块和最小均方误差模块来缓解这一问题。GU等[10]引入了CA-Net,该网络利用了特征图的空间位置、通道号和尺度,以及一个综合关注模块。此外,Dai等[7]在MsRED中提出了MsREFM和MsR-DFM进行多尺度特征融合,使网络能够自适应地学习上下文信息。除了这些进步之外,研究人员还提出了各种改进的医学图像分割算法。虽然这些方法[17,22]已经取得了一定的性能改进,但它们仍然有一定的局限性。例如,大多数编码和解码卷积块都受到大量参数和计算复杂性的影响。编码器层提取的信息可能不够充分,这给边界模糊的图像分割带来了挑战。当在解码器层恢复图像空间细节和语义信息时,捕获多尺度特征的变化可能是困难的。此外,传统的融合方法,如特征图拼接[7],往往存在信息冗余或缺失的问题。
为了解决上述问题,我们提出了编码器激活扩散和解码器变压器融合网络,简称ADTF。我们提出了一种LCM,它无缝地取代了编码器-解码器中的卷积层。
与传统的卷积层相比,我们的LCM显著减少了参数的数量,同时略微提高了分割性能。
此外,EAD保留了更多有意义的信息,从而改善了模糊区域的分割。最后,我们介绍了MDFT可以利用自注意机制与不同尺度的特征进行全局交互。这能够更好地学习不同通道特征之间的相关性,促进捕获复杂医学图像中的远距离依赖关系和全局上下文信息。总的来说,本文的主要贡献可以概括为以下几点:
1. 为了增强模型的特征学习能力,并在训练网络时减少模型参数的数量,提出了一种轻量