6.7.13 MV-Swin-T：使用多视图 SWIN 变压器进行乳房 X 光检查分类

最新推荐文章于 2025-04-03 14:30:00 发布

托比-马奎尔

最新推荐文章于 2025-04-03 14:30:00 发布

阅读量1.2k

点赞数 47

分类专栏：医学图像处理文章标签：分类数据挖掘人工智能

本文链接：https://blog.youkuaiyun.com/qq_47896523/article/details/139559363

版权

本文提出了一种基于Swin Transformer的多视图网络MV-Swin-T，用于乳腺X线摄影图像分类。通过移位窗口多头动态注意力模块，有效地整合多视图信息，提高了模型性能。在CBIS-DDSM和VinDr-Mammo数据集上进行了全面的实验，证明了多视图分析优于单视图分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

传统的乳腺癌分类深度学习方法主要集中在单视图分析上。然而，在临床实践中，放射科医生会同时检查乳房 X 线摄影检查中的所有视图，利用这些视图中固有的相关性来有效检测肿瘤。

在本文中，我们提出了一种完全基于 Transformer 的创新多视图网络，以解决乳房 X 线摄影图像分类中的挑战。我们的方法引入了一种新颖的基于移位窗口的动态注意块，促进了多视图信息的有效整合，并促进了这些信息在空间特征图级别视图之间的连贯传输。此外，我们使用 CBIS-DDSM 和 Vin-Dr Mammo 数据集，对基于 Transformer 的模型在不同环境下的性能和有效性进行了全面的比较分析。

1. 引言

早期检测主要依赖于筛查乳房 X 线摄影，包括四张图像——每侧乳房两张，从不同角度拍摄：从侧面拍摄的内外斜向 (MLO) 和从上方拍摄的头尾 (CC)。虽然传统的乳腺癌分类深度学习方法侧重于单视图分析，但放射科医生会同时评估乳房 X 线摄影检查中的所有视图，识别出提供关键肿瘤信息的有价值的相关性。

利用深度神经网络 (DNN) 将多种视角整合到乳腺癌筛查中的努力源于 Carneiro 等人的工作 [5]。在 MLO 和 CC 视图上分别训练模型，然后使用最终全连接层的特征来训练多项逻辑回归模型。在一项平行工作中，Sridevi 等人在 [6] 中提出了一种利用 CC 和 MLO 视图的分类策略。方法包括初始图像规范化、胸肌去除，以及随后通过卷积层和池化层进行特征提取，并将提取的特征连接起来。在 [7] 中，Khan 等人介绍了一种两阶段分类策略，涉及使用从四个乳房 X 光检查视图中提取的 ROI。各种 CNN 被用作特征提取器，并使用早期融合策略将从所有视图中提取的特征连接起来，最终通过分类器层得到输出。

近年来，注意力机制因其广泛的应用而成为深度学习的核心概念。在此背景下，注意力机制的目标是使模型能够选择性地关注相关的局部输入区域和特征通道，从而避免对所有位置和特征一视同仁。在医学图像分析中，诊断通常取决于特定的孤立关注区域，最近的研究探索了将注意力机制整合到多视角乳房 X 线摄影分析中。 Transformer 固有的自注意力机制使模型能够动态地辨别要关注的位置和内容，利用相关的图像区域或特征来增强任务性能。借助自注意力，视觉 Transformer [8] 擅长捕捉输入序列中的长距离依赖关系。

尽管 Transformer 在建模长距离依赖性方面具有明显的前景，但它们在多视图乳房 X 线照片分析中的应用仍然是一个相对未知的领域。例如 [9]，采用了结合 Transformer 和 CNN 的混合模型，引入了全局跨视图 Transformer 块来合并 CC 和 MLO 视图的中间特征图。

另一项值得注意的工作是 [10]，它采用了基于 Transformer 的模型进行乳腺癌片段检测。然而，在网络的后期处理多视图，错失了捕捉视图之间局部相关性的机会，并且缺乏公开数据集上的结果，从而限制了与现有文献的可比性。