医图论文 CVPR‘24 | 多频率多尺度注意力下的模态不可知领域泛化医学图像分割

最新推荐文章于 2025-04-07 01:38:06 发布

原创最新推荐文章于 2025-04-07 01:38:06 发布 · 1.6k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #microsoft #cnn #transformer #分类

论文信息

题目：Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention

多频率多尺度注意力下的模态不可知领域泛化医学图像分割

论文创新点

模态不可知和领域泛化能力：论文提出了一种名为 MADGNet 的新型医学图像分割模型，该模型能够处理多种模态的图像，并且具备在未见临床环境中的泛化能力，这在医学图像分析领域是一个重要的进步。
多频率多尺度注意力（MFMSA）块：作者设计了一个创新的 MFMSA 块，该块通过结合多频率和多尺度特征来提炼空间特征提取过程，尤其是在捕获边界特征方面表现出色，这为组织轮廓和解剖结构的识别提供了丰富的信息。
集成子解码模块（ESDM）：为了解决在深度监督下多任务学习可能导致的信息丢失问题，特别是从低分辨率到高分辨率的上采样过程中，作者提出了 ESDM。这个模块通过集成方式补充信息丢失，提高了模型在细节边界预测的准确性。

摘要

在医学图像分割中，深度神经网络的泛化能力扮演着关键角色。然而，基于深度学习的医学图像分析往往忽视了频率变化的重要性，这是实现模态不可知和领域泛化模型的关键要素。此外，各种模型未能考虑到在深度监督下多任务学习可能导致的信息丢失，这可能会损害模型的表示能力。为了解决这些挑战，作者提出了一种模态不可知领域泛化网络（MADGNet）用于医学图像分割，它包括两个关键组件：多频率多尺度注意力（MFMSA）块和集成子解码模块（ESDM）。MFMSA块通过结合多频率和多尺度特征来提炼空间特征提取过程，特别是在捕获边界特征方面，从而为组织轮廓和解剖结构提供信息线索。此外，作者提出了ESDM来减轻在深度监督下多任务学习中的信息丢失，特别是在从低分辨率进行大量上采样时。作者在六个模态和十五个数据集上评估了MADGNet的分割性能。通过广泛的实验，作者证明了MADGNet在各种模态中持续超越最先进的模型，展现出卓越的分割性能。这证实了MADGNet作为医学图像分割的鲁棒解决方案，在多样的成像场景中表现出色。作者的MADGNet代码可在GitHub链接获取。

方法

3.1 多频率多尺度注意力块

MADGNet和MFMSA块的整体架构在图2中说明。MFMSA块可分为三个步骤：1）尺度分解，2）MFCA，3）MSSA。

特征提取

作者使用预训练的ResNeSt来从输入图像中提取特征图，由于其增强的特征表示。作者还在附录9.1中对各种主干（ResNet、Res2Net、Vision Transformer）进行了实验。设fi为第i阶段编码器块的特征图，对于i = 1, 2, 3, 4, 5。由于每个阶段的通道数影响解码器的复杂性，作者使用2D卷积将通道数减少到Ce。此外，在解码过程中，将特征恢复到输入图像分辨率时，作者将编码器和先前解码器块的两个特征进行融合，如下所示：

其中Conv2Dk(·)、Cat(·, ·)和Upm(·)分别表示k内核大小的2D卷积、沿通道维度的特征图连接和2m−1的上采样。假设Ci = Ce + Ci−1 = C, Hi = H, Wi = W。尺度分解。为了从输入特征图Xi产生多尺度特征，作者假设总共有S个分支在S个不同的尺度上操作。对于每个s-th尺度分支（1 ≤ s ≤ S），作者以γ ∈ (0, 1)的通道和分辨率缩减比率降低输入特征图Xi的分辨率和通道，以提高计算效率。因此，每个输入特征图在s-th尺度分支可以写成如下：

其中Downs(·)是2s−1的下采样。此外，作者将s-th尺度分支的通道数、高度和宽度分别表示为Cs = max( C/γ^(s-1), Cmin), Hs = max( H/2^(s-1), Hmin), 和 Ws = max( W/2^(s-1), Wmin)。多频率通道注意力（MFCA）。最近，2D DCT通过将图像表示为由不同频率的余弦函数产生的基图像的加权和的压缩能力，在频域中提取特征受到了关注。每个尺度分支的特征可以使用2D DCT和基图像D进行表征，如下所示：

其中(uk, vk)是对应于X_{s,k_i}的频率索引。此外，s-th尺度分支的2D DCT基图像定义为D_{uk,vk}^h,w = cos(πh/Hs(uk + 1/2)) cos(πw/Ws(vk + 1/2))，采用top-K选择策略。随后，每个X_{s,k_i}被压缩成Zavg, Zmax, 和Zmin，使用全局平均池化、全局最大池化和全局最小池化，并聚合每个频率的统计数据以产生s-th尺度分支的通道注意力图，使用两个全连接层W1 ∈ R^{Cs×Cs/r}和W2 ∈ R^{Cs/r×Cs}，如下所示：

其中δ和σ分别表示ReLU和Sigmoid激活函数。最后，作者使用M_{s_i}在s-th尺度分支重新校准特征图X_{s_i}，如下所示：

3.2 集成多任务学习与深度监督

动机

多任务学习与深度监督是提高模型表示能力和防止梯度消失问题的众所周知的训练策略；这是通过在每个 i-th 解码器阶段共训练核心任务和其他 L 个子任务实现的。然而，低分辨率特征图必须上采样到高分辨率以计算真实值和预测之间的损失函数。这种剧烈的上采样干扰了模型的表示能力，因为对于预测详细边界和结构来说，信息丢失是一个问题。为了解决这个问题，作者提出了一种集成子解码模块（E-SDM），这是一种新颖的多任务学习与深度监督的训练策略。图 3 说明了（a）并行和（b）集成方式之间的差异。主要思想是通过在上采样后将子任务预测结合起来，级联地补充信息丢失，从而改善核心任务预测。

前向流

在前向流中，核心和子任务伪预测在 i-th 解码器阶段产生，如下所示：

其中。这个流确保了以下子任务预测通过空间注意力机制关注区域，从核心伪预测开始。后向流。在产生 L-th 子任务伪预测后，为了获得最终的核心任务预测，我们应用后向流，如下所示：

其中。为了进一步分析方程 8，我们可以从核心任务递归重写如下：

因此，E-SDM 可以被解释为不同任务预测之间的集成，用于描述同一病变。算法 1 描述了 E-SDM 的详细训练算法。损失函数。多任务学习与深度监督在集成方式中的损失函数与并行方式中的损失函数相同，如下所示：

其中和分别是任务 t 和 i-th 解码器的真值和预测。此外，和分别是任务 t 的损失函数和比率。

对于多任务学习与深度监督，我们定义核心任务为区域 R 和两个子任务为边界 B 和距离图 D。区域预测的损失函数定义为，其中和分别是加权 IoU 和 bce 损失函数。此外，我们定义边界和距离图损失函数和分别为 bce 和 mse 损失。

实验结果

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述