目录
一、论文信息
1.1、中文名称
Title:CSWin-UNet:用于医学图像分割的具有十字形窗口的Transformer UNet;
1.2、论文关键词
医学图像分割、CSWin 自注意力机制、内容感知重组算子、水平和垂直条纹自注意力
1.3、核心概述
在本文中通过引入一种高效且轻量级的方法 CSWin-UNet 来解决先前基于 Transformer 的医学图像分割模型中感受野相互作用的局限性。在三个大型医学图像分割数据集的综合评估表明,CSWinUNet 在分割精度方面超越了其他最先进的方法。
二、摘要
2.1、背景
深度学习,特别是卷积神经网络(CNN)和 Transformer 架构,已成为医学图像分割广泛研究的焦点,取得了令人印象深刻的成果。
2.2、挑战
然而,CNN 存在归纳偏差,限制了其在更复杂、多样化的分割场景中的有效性。 相反,虽然基于 Transformer 的方法擅长捕获全局和远程语义细节,但它们的计算需求很高。(注:归纳偏置是指CNN的局部感知、权重共享、平移不变性、层次化特征提取,此处主要是想要凸显出其局部感知的不足,不能处理全局上下文信息)
2.3、提出新方法
在本研究中,本文提出了 CSWin-UNet,这是一种新颖的 U 形分割方法,它将 CSWin 自注意力机制融入到 UNet 中,以促进水平和垂直条纹自注意力。 该方法显着提高了计算效率和感受野相互作用。 此外,本文的创新解码器利用内容感知重组算子,在预测内核的指导下战略性地重组特征,以实现精确的图像分辨率恢复。
2.4、结果
本文对不同数据集(包括突触多器官 CT、心脏 MRI 和皮肤病变)进行的广泛实证评估表明,CSWin-UNet 保持了较低的模型复杂性,同时提供了较高的分割精度。
三、引言
3.1、引出背景
医学图像分割是医学图像计算和计算机辅助干预的重要研究课题,主要通过处理图像来获取有用信息,如病变器官或组织的形状、大小和结构,提供更准确、更详细的诊断和治疗建议。
基于深度学习的医学图像分割方法可以直接在像素级别对整个图像进行分类,并已广泛应用于多个医学领域,包括肺计算机断层扫描(CT)图像分割、脑磁共振图像(MRI) 分割和心脏超声图像分割。 这些方法不仅提高了分割精度,而且进一步推进了医学成像领域的发展。 卷积神经网络(CNN)是计算机视觉领域应用最广泛的深度学习技术之一。 全卷积网络(FCN)作为CNN的扩展,推动了医学图像分割领域的发展。 现有研究提出了扩展卷积和上下文学习方法来解决传统卷积运算有限的感受野。 此外,UNet凭借其创新的 U 形编码器-解码器设计和跳过连接,合并来自编码器和解码器的特征图,以保留浅层的关键空间细节。 这种架构已成为图像分割的主要内容。 UNet 的衍生模型,例如 UNet++ 、AttentionUNet 和 ResUNet ,进一步完善了分割功能,在一系列成像模式中提供了改进的性能。
3.2、引出挑战
尽管基于 CNN 的方法在医学图像分割方面取得了成功,但它们捕获全局和远程语义信息的能力有限以及固有的归纳偏差 。 受到 Transformer 架构在自然语言处理 (NLP) 中的变革性影响的启发,研究人员已经开始将该技术应用于计算机视觉任务,旨在减轻 CNN 的一些局限性 。 Transformer 架构的核心是自注意力机制,它并行而不是顺序地处理输入序列中所有位置的嵌入信息。 这种机制允许 Transformer 熟练地管理远程信息依赖性并适应不同的输入序列长度。 作为一种专门用于图像处理的适应性技术,Vision Transformer通过将输入图像分割成一系列固定大小的图像块来实现这一点。随后每个图像块被转换成一个向量,并由Transformer编码器进行处理。通过编码阶段,自注意力建立了块间关系,捕获全面的上下文信息。 随后利用解码器或分类器将所得的编码特征用于对象检测和图像分割等任务。 Vision Transformer 的引入不仅为图像处理注入了新的视角,而且取得了与传统 CNN 相媲美或超越的结果。 尽管 Transformer 架构在处理全局和远程语义信息方面表现出色,但由于其自注意力机制的广泛性,其计算效率常常受到影响。 为了解决这种低效率问题,Swin Transformer创新了窗口自注意力机制,限制了对图像内离散窗口的注意力,从而大大降低了计算复杂性。 然而,这种方法在一定程度上限制了感受野之间的相互作用。 为了克服这个问题,CSWin Transformer 提出了十字形窗口(CSWin)自注意力,它可以水平和垂直并行计算自注意力,以较低的计算成本获得更好的结果。 此外,CSWin Transformer 引入了本地增强位置编码 (LePE),该编码将位置信息强加到每个 Transformer 块上。 与之前的位置编码方法不同,LePE直接操纵注意力权重的结果,而不是添加到注意力的计算中。 LePE 使 CSWin Transformer 在对象检测和图像分割方面更加有效。 随着 Transformer 的发展,许多研究将 CNN 与 Transformer 模块结合起来。 TransUNet 和 LeViT-UNet 将 UNet 与 Transformers 集成,并在腹部多器官和心脏分割数据集上取得了有竞争力的结果。 此外,一些研究人员还使用纯 Transformer 开发了分割模型。 SwinUNet采用 Swin Transformer 块在类似 UNet 的架构中构建编码器和解码器,与 TransUNet 相比,表现出更好的性能。 然而这种基于Swin Transformer的分割方法在感受野交互方面仍然存在局限性,计算成本也比较高。
3.3、创新来源
医学图像通常具有高分辨率并包含许多相互关联的精细结构。 本文主要关心的问题之一是如何以更少的计算资源消耗更好地处理医学图像中的远程依赖性。 此外,与语义分割相比,医学图像中准确的边界分割对于诊断和治疗至关重要。 因此,本文研究的另一个重点是如何在分割过程中保留更详细的信息并提供更明确的边界。 受创新的 CSWin Transformer的启发,本文引入了一种新颖的基于 Transformer 的方法,称为 CSWin-UNet,用于医学图像分割。 该方法旨在降低计算成本,同时提高分割精度。 与 TransUNet这种 CNN-Transformer 混合架构不同,CSWin-UNet 与 SwinUNet类似,是一种纯粹基于 Transformer 的 U 形架构。 CSWin-UNet 和 Swin-UNet 之间的关键区别在于,前者在编码器和解码器中都配备了 CSWin Transformer 块,并根据不同的规模设计了不同数量的块。 此外,本文引入了 CARAFE(内容感知重组功能)层 ,用于解码器中的上采样。 最初,输入医学图像被转换为卷积token嵌入,然后由编码器处理以提取上下文特征。 这些特征随后由 CARAFE 层进行上采样,从而实现精确的特征重组。此外,采用跳跃连接将高级语义信息与低级空间细节连续融合。 该过程最终将特征嵌入转换为与原始输入大小匹配的分割掩模。 通过十字形窗口自注意力,本文的方法可以保持医学图像的高效特征提取能力,同时降低计算复杂度。 此外,通过结合UNet的经典架构,它可以有效地融合编码器和解码器中不同尺度的特征,从而提高分割精度。 最后,引入CARAFE层进行上采样可以更有效地保留分割对象的边缘和细节特征。 与其他现有方法相比,本文的 CSWin-UNet 方法的实验评估显示出卓越的分割精度和强大的泛化能力。 此外,它在降低医学图像分割任务的计算复杂性方面展示了相当大的优势。
3.4、贡献总结
-
本文开发了一种新颖的 U 形编码器-解码器网络架构 CSWin-UNet,利用专门为医学图像分割量身定制的 CSWin Transformer 模块。
-
结合CSWin自注意力机制来实现水平和垂直条纹自注意力学习。 这一增强功能显着拓宽了每个token的重点领域,促进更全面的分析和上下文集成。
-
在解码器中,CARAFE 层被用作传统转置卷积或上采样插值策略的替代方案。 此选择允许更准确的像素级分割掩模。
-
综合实验结果验证CSWin-UNet不仅是轻量级的,而且表现出高效的性能,在计算效率和分割精度方面都超越了现有方法。
四、相关工作
4.1、图像分割中的自注意力机制
图1:不同的注意力机制
自注意力机制在图像分割中的应用已被广泛研究。 研究表明,针对合适的场景设计不同的自注意力机制可以显着提高分割性能。 医学图像分割任务往往涉及微妙但关键的结构,而自注意力机制可以更好地捕捉这些复杂结构之间的关系,使得设计有效且合适的自注意力机制尤为重要。 然而,许多现有的视觉 Transformer 仍然使用计算复杂度较高的全局注意力机制,如图 1(a)所示。 为了解决这个问题,Swin Transformer 采用了局部自注意力机制的移位版本,如图1(b)所示,通过滑动窗口机制实现不同窗口之间的交互。 此外,轴向自注意力和十字交叉注意力计算沿水平和垂直方向的条纹内的注意力,分别如图1(c)和(d)所示。 然而,轴向自注意力受到顺序机制和窗口大小的限制,而交叉注意力由于窗口重叠而在特定应用中表现不佳。 CSWin Transformer 引入了十字形窗口(CSWin)自注意力,它可以并行计算水平和垂直条纹区域的自注意力。 与之前的注意力机制相比,这种注意力机制在处理图像处理任务方面更加通用和有效。
4.2、基于CNN的医学图像分割
在医学图像分割中,CNN占有主导地位,其中几个重要的架构推动了该领域的进步。 其中,FCN作为一种端到端架构脱颖而出,它直接对像素进行分类,将全连接层转换为卷积层以适应任何尺寸的图像。 UNet模型具有对称 U 形编码器-解码器架构,擅长提供精确的医学图像分割。 在 FCN 和 UNet 奠定的基础上,提出了几种增强方法。 例如,SegNet融合了FCN和UNet的思想,利用最大池算子来提高分割掩模的准确性,并已有效地应用于各种医学分割任务中。 UNet++通过集成密集嵌套的跳跃连接扩展了原始的UNet设计,最大限度地减少了编码器和解码器之间的信息丢失,从而提高了分割性能。 AttentionUNet通过注意机制增强了 UNet 架构,以提高准确性和鲁棒性。 最后,nnU-Net引入了一种自适应网络架构选择方法,根据特定任务要求和数据集特征自动优化模型配置,从而增强对各种分割挑战的适应性。 此外,MRNet 提出了一种多评估者一致性模型来校准分割结果,Pan 等人设计了一种混合监督学习策略来解决医学图像标签稀缺的问题。
4.3、基于Transformer的医学图像分割
鉴于医学图像的高分辨率和复杂性(包含大量像素和复杂的局部特征),传统的基于 CNN 的医学图像分割方法虽然可以有效捕获详细的图像信息,但通常无法访问全局和远程语义 上下文。 相比之下,Transformers 凭借其全局上下文建模功能,通过有效编码更大的感受野和学习远处像素之间的关系,在提高分割性能方面发挥着关键作用。 这一优势促使研究人员将 Transformer 纳入医学图像分割框架中。 例如,TransUNet采用 Transformer 作为编码器从医学图像中获取上下文表示,并结合基于 UNet 的解码器进行精确的像素级分割。 这种组合说明了 Transformers 捕获全局上下文信息的能力增强,从而提高了分割准确性。 类似地,TransFuse将 CNN 和 Transformer 分支集成在一个框架内,使用专门的模块合并两个路径的输出以生成最终的分割掩模。 此外,UNetR 利用 Transformer 对输入 3D 图像进行编码,与 CNN 解码器配对来完成分割过程,而 MT-UNet引入了一种混合 Transformer 架构,可以学习样本内和样本间关系。 HiFormer 提出了另一种混合模型,将两个 CNN 与 Swin Transformer 模块和双层融合模块相结合,以集成多尺度特征信息并将其传输到解码器。 在纯粹基于 Transformer 的方法中,Swin-UNet 使用 Swin Transformer 作为编码器来捕获全局上下文嵌入,然后由 UNet 解码器逐步上采样,利用跳过连接来增强细节保留。 此外,DFQ在 Vision Transformer (ViT) 框架内引入了解耦特征查询,使分割模型能够更广泛地适应不同的任务。
受到多头自注意力机制(特别是 CSWin Transformer)进步的启发,本文开发了 CSWinUNet,一种基于 CSWin 自注意力的医学图像分割方法。 该模型进一步节省了计算资源,同时提高了分割精度,代表了 Transformer 在医学图像分割应用中的重大进步。
五、具体方法
5.1、整体架构图
CSWin-UNet 的整体架构图如图2所示。它由编码器、解码器和跳跃连接组成,基本单元是 CSWin Transformer 块。 对于输入维度为的医学图像,与CvT类似,本文利用卷积token嵌入(具有7×7大小,步幅为4的卷积核)来获得
个patch token 与 𝐶 通道。 编码器和解码器都由四个阶段组成。与UNet一样,使用跳跃连接来合并编码器和解码器每个阶段的特征更好地保留上下文信息。在编码器中,卷积层(具有 3 × 3大小,步幅为2的卷积核)用于下采样,将分辨率降低至输入大小的一半,同时通道数加倍。 解码器中的上采样是通过 CARAFE 层执行的,将分辨率提高到输入大小的两倍,同时通道数减半。 最后,进行4×CARAFE上采样操作,将分辨率恢复为输入分辨率
,并使用线性层将特征图转换为分割掩模。
图2:CSWin-UNet架构图
5.2、CSWin Rransformer 块
图3:CSWin Transformer块
传统的 Transformer 架构凭借其自注意力机制,擅长通过处理所有像素位置来建立全局语义依赖关系,但这导致高分辨率医学成像中的计算成本很高。 Swin Transformer 通过转移窗口注意力机制来减轻这些成本,该机制将图像划分为不同的、不重叠的窗口,从而允许局部自注意力。 这种适应有助于管理图像的高分辨率,同时控制计算复杂性。 然而,这种方法的有效性取决于窗口大小; 较小的窗口可能会丢失一些全局信息,而较大的窗口可能会不必要地增加计算需求和存储。 与平移窗口注意力机制相比,CSWin自注意力将注意力组织成水平和垂直条纹,增强了并行计算能力。 这种结构不仅节省了计算资源,而且还拓宽了感受野内的交互。 如图 3 所示,CSWin Transformer 模块基于这种创新的自注意力设计而构建,包括 CSWin 自注意力模块、LayerNorm (LN) 层、多层感知器 (MLP)和跳跃连接。这种配置最佳地平衡了局部和全局信息处理,显着提高了复杂医学图像分割任务的效率和有效性。
图4:CSWin自注意力机制图
在多头自注意力机制中,输入特征经历初始变换,在𝑁头之间线性映射,𝑁通常选择偶数。 与传统的自注意力和基于移位窗口的多头自注意力不同,CSWin 自注意力独特地促进了划分的水平或垂直条纹内的局部自注意力学习,如图 4 所示。这种配置允许每个头在其指定的水平或垂直条带内进行计算自注意力 。这些操作是并行执行的,有效地扩大了注意力计算区域的范围,同时降低了整体计算复杂度。
在 CSWin Transformer 的水平条纹自注意力配置中,输入特征 𝑋 被系统地划分为 𝑀 不重叠的水平条纹,表示为 [,
,…,
],其中每个条纹的宽度为
,并且 𝑀 由比率决定
。 参数
是可调整的,对于平衡计算复杂性和模型的学习能力至关重要。 具体来说,较大的
增强了模型探索每个条纹内的远程像素相关性的能力,从而有可能捕获更广泛的上下文信息。 考虑特定头内的计算,表示为第
th 头。 在这种情况下,查询(Q)、键(K)和值(V)的维度分别为
,其中𝐶是通道数,𝑁是头总数。 第 𝑖 水平条带内第 𝑛 头的自注意力输出
计算如下:
其中 是第 𝑖 个水平条纹的特征图;
、
和
表示第𝑛头的 Q、K 和 V 的权重矩阵。 对于每个条带,该操作是单独并行执行的,以允许在该特定水平条带内进行自我关注。 来自𝑀水平条纹的自注意力被连接起来,为第𝑛头构建水平自注意力
:
与水平条纹自注意力类似,输入特征 均匀地分为𝑆 非重叠垂直条纹 [
,
,…,
] 用于垂直自注意力,其中条纹宽度 也是
,并且
。 以第 𝑛 个注意力头为例,其中 Q、K 和 V 的维度为
。 第 𝑖 竖条内第 𝑛 头的自注意力输出
可以表示如下:
其中是第𝑖垂直条纹的特征图。 来自𝑆垂直条纹的自注意力被连接起来,为第𝑛头构建垂直自注意力
:
我们将𝑁头分成两组,每组包含个头。 这些组中的每个头都会生成其自注意力输出。 第一组的任务是学习水平条纹的自注意力,而第二组的任务是学习垂直条纹的自注意力。 分别计算自注意力后,将这两组的输出连接起来。 这种串联是沿着通道维度执行的,如下所示:
其中 表示第 𝑛 个注意力头;
是一个权重矩阵,用于对多头自注意力机制的级联输出进行线性变换以产生最终的注意力输出,这种线性变换可以帮助学习不同头之间的关系并融合注意力信息。 级联输出有效地结合了水平和垂直上下文信息,全面学习输入图像内的空间关系。
基于上述自注意力机制,CSWin Transformer 块可以定义为:
其中表示第
CSWin Transformer块或每个阶段的先前卷积层的输出。
5.3、编码器
在编码器中,输入图像尺寸为,然后进入四个阶段进行特征提取。 下采样操作伴随前三个阶段。 CSWin Transformer 块的数量在四个阶段中各不相同,块计数设置的详细信息将在稍后讨论。 下采样层由内核大小为 3 × 3、步幅为 2 的卷积层实现,将分辨率降低至其输入大小的一半,同时通道数增加一倍。 条纹宽度
根据不同阶段而变化。 随着分辨率不断降低、通道数增加,在分辨率较大的阶段选择较小的
,在分辨率较小的阶段选择较大的
,有效扩大了分辨率较小的阶段中每个token的注意力区域。 此外,输入图像分辨率为224×224。为了确保输入图像的中间特征图大小可以除以
,我们将四个阶段的
设置为1、2、7和7。
5.4、解码器
与编码器相对应,解码器也有四个阶段。 图像分辨率和通道数的增加是通过最后三个阶段的 CARAFE 层实现的。 四个阶段中 CSWin Transformer 块的数量和用于注意力学习的条带宽度 与编码器中设置的一致。 常用的上采样方法包括线性插值和转置卷积。 双线性插值仅考虑相邻像素,可能会模糊图像的边缘,导致分割结果边界不清晰,而转置卷积的感受野通常受到核大小和步幅的约束,不仅限制了其表示局部变化的能力 但还需要学习转置卷积核的权重和偏差。 与这些方法不同,本文使用 CARAFE来实现上采样。
CARAFE 层是一种先进的上采样机制,包含两个主要组件:内核预测模块和内容感知重组模块。 内核预测模块从一个卷积层开始,其任务是根据编码特征预测重组内核。 它包括三个子模块:通道压缩器、上下文编码器和内核标准化器。 通道压缩器降低了输入特征图中通道空间的维数 ,从而降低计算复杂度并专注于基本特征信息。 通道压缩后,上下文编码器处理简化的特征图以编码上下文信息,这有助于生成重组内核。 每个预测的重组内核都通过内核归一化器中的 Softmax 函数进行归一化,以确保权重的输出分布是概率性的且总和为 1,从而增强上采样过程的稳定性和性能。 通过上采样比率 𝜎(其中 𝜎 是整数),CARAFE 旨在生成扩展特征图
。 对于
中的每个像素
,它对应于 𝑋 中的特定像素
,由
和
。 内核预测模块 𝜓 基于邻域
为每个像素
预测唯一的重组内核
,这是一个以 𝑋 上的像素
为中心的 𝑘 × 𝑘 区域。 该邻域提取局部特征,预测内核使用这些特征来有效地重组和上采样特征图。
其中表示内容编码器的感受野。
第二步是内容感知重组,其中使用卷积层重新组装输入特征,内容感知重组模块 𝜙 使用重组内核 重新组装
:
其中是重组内核的大小。 对于每个重组内核
,内容感知重组模块会重新组装局部方形区域内的特征。 模块𝜙执行加权求和。 对于像素位置 𝑙 及其中心邻域
,重组过程如下:
内的每个像素对上采样像素
的贡献不同。 重新组装的特征图可以增强对局部区域内相关信息的关注,提供比原始特征图更鲁棒的语义信息。 此外,与UNet类似,本文使用跳跃连接来合并从编码器和解码器输出的特征图,从而提供更丰富、更准确的空间信息,有助于恢复图像细节。 随后,使用1×1卷积核来减少级联后的通道数,保证与上采样过程中特征通道数的一致性。
六、实验过程
6.1、数据集
Synapse 数据集:突触多器官分割数据集包括来自 MICCAI 2015 Multi-Atlas 腹部器官分割挑战赛的 30 张 CT 扫描,总共包含 3779 张腹部 CT 图像。 每次 CT 扫描由 85 至 198 个切片组成,每个切片 512 × 512 像素,每个体素尺寸为 ([0.54, 0.54]×[0.98, 0.98]×[2.5, 5.0]) 。 选择18组进行训练,12组进行评估。 使用平均 Dice 相似系数(DSC)和平均 Hausdorff 距离(HD)作为指标评估八种腹部器官(主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾、胃)的分割性能 。
ACDC数据集:自动心脏诊断挑战赛 (ACDC) 数据集在 2017 年 ACDC 挑战赛期间发布,提出了多类别心脏 3D MRI 数据集,其中包括通过电影 MR 1.5T 和 3T 扫描仪获得的 100 组短轴 MR 心脏图像。 医学专家提供了三种心脏结构的注释:右心室(RV)、心肌(MYO)和左心室(LV)。 我们随机选择 70 组 MR 图像用于训练,10 组用于验证,20 组用于评估。 ACDC数据集使用平均DSC作为评估指标来评估三个心脏结构的分割结果。
皮肤病变分割数据集:本文在 ISIC2017、ISIC2018 和 PH2 数据集上进行了实验。 ISIC 数据集包含大量皮肤镜图像,涵盖各种皮肤病变。 按照 HiFormer中的设置,本文在 ISIC2017 数据集中使用 1400 张图像进行训练,200 张图像进行验证,400 张图像进行测试; ISIC2018数据集中有1815张训练图像、259张验证图像和520张测试图像; PH2 数据集中有 80 个用于训练的图像、20 个用于验证的图像和 100 个用于测试的图像。 本文使用平均 DSC、敏感性 (SE)、特异性 (SP) 和准确性 (ACC) 作为指标来评估皮肤病变分割任务。
6.2、实验细节
CSWin-UNet是使用Python和PyTorch框架实现的。 模型训练和评估在具有 24 GB VRAM 的 NVIDIA® GeForce RTX™ 3090 GPU 上进行。 本文使用ImageNet中的预训练权重初始化 CSWin Transformer 块,以利用先验知识并加速收敛过程。 对于数据增强,采用翻转和旋转等方案来增强训练数据集的多样性,从而帮助模型更好地泛化到未见过的数据。 在训练阶段,批量大小设置为 24,本文使用的学习率为 0.05。 使用随机梯度下降 (SGD) 方法进行优化,动量为 0.9,权重衰减因子为 10−4。 选择此设置是为了优化快速学习和收敛稳定性之间的平衡。 此外,为了有效地训练 CSWin-UNet,本文采用了集成 Dice 和交叉熵损失的组合损失函数,定义如下:
其中𝛼和𝛽是两个超参数,分别用于平衡和
对最终损失的影响。 这种组合损失的目标是像素级精度和整体分割质量,确保稳健的学习并提高各种医学图像分割任务的性能。
6.3、synapse数据集结果
表1:synapse数据集实验结果
图5:Synapse 数据集上每个器官的平均 DSC、平均 HD 和 DSC 的误差线(95% 置信区间)
图6:不同方法定性结果
6.4、ACDC数据集结果
表2:ACDC数据集上实验结果
图7:ACDC 数据集上每个心脏结构的平均 DSC 和 DSC 的误差线(95% 置信区间)
6.5、皮肤病灶分割数据集结果
表3:皮肤病灶分割数据集实验结果
图8:ISIC2017、ISIC2018 和 PH2 数据集上 DSC、SE、SP 和 ACC 的误差线(95% 置信区间)
图9:CSWin-UNet 和 Swin-UNet 在 ISIC2017 数据集上分割结果的可视化比较
6.6、计算效率比较
6.7、消融实验
6.7.1、上采样策略
6.7.2、跳跃连接
6.7.3、网络架构
6.7.4、组合损失函数
七、总结
在本文中,通过引入一种高效且轻量级的方法 CSWinUNet 来解决先前基于 Transformer 的医学图像分割模型中感受野相互作用的局限性。 利用 CSWin Transformer 的 CSWin 自注意力机制,本文将该技术整合到 U 形编码器-解码器架构中。 这种集成不仅降低了计算成本,还提高了感受野交互和分割精度。 在解码器中,采用CARAFE层进行上采样,有助于保留复杂的细节并提高器官边缘分割的精度。 对三个大型医学图像分割数据集的综合评估表明,CSWinUNet 在分割精度方面超越了其他最先进的方法。 此外,CSWin-UNet 在模型参数和计算负载方面更加轻量级,这表明在复杂医学图像分割任务的深度学习应用中进一步优化和增强的巨大潜力。