6.26.3 基于Transformer的深度神经网络在数字乳腺断层合成图像上的乳腺癌分类

托比-马奎尔

已于 2024-08-22 19:06:10 修改

阅读量1.2k

点赞数 24

分类专栏：深度学习基础知识文章标签： dnn 人工智能神经网络

于 2024-06-27 10:35:55 首次发布

本文链接：https://blog.youkuaiyun.com/qq_47896523/article/details/140005696

版权

深度学习基础知识专栏收录该内容

20 篇文章

订阅专栏

开发一种有效的深度神经网络模型，该模型结合了相邻图像部分的上下文，以检测数字乳腺断层合成(DBT)图像上的乳腺癌。

数字乳房断层合成(DBT)是一种医学成像技术，其中检测器围绕患者以有限角度旋转并记录多幅图像。然后将这些图像重建为二维(2D)切片堆栈，从而改进病变检测、表征和定位。许多研究表明，与2D数字乳房x线摄影相比，DBT在筛查和诊断成像结果方面都有改善(1,2)。虽然DBT正在成为乳腺癌检测的标准，但其解释时间仍然是一个问题(3)。

使用神经网络进行DBT的一个关键挑战是三维(3D)数据量;每次扫描都有很高的空间分辨率和几个部分，这意味着一个病例在未压缩的情况下可以很容易地得到几GB的数据。此外，3D cnn(5)由于其庞大的计算成本而难以应用。因此，大多数DBT的计算机辅助检测方法一次只评估单个部分(6,7)，或者根据每个部分的推理结果将整个DBT堆栈合成为图像并评估该图像(8-10)。这些方法的缺点是区段之间的关系没有得到最佳利用。

材料和方法

模型开发

DBT扫描是由从多个角度拍摄的2D x光片重建的2D切片堆叠而成(1)。方法输入重建切片的DBT堆叠，并为每个切片生成预测。该模型输出其包含恶性病变的分段可能性和包含每个分段中每个像素的预测的热图。像素的值表示该像素属于恶性病变的可能性。

在DBT数据上训练深度神经网络是具有挑战性的，主要是因为它的高内存和计算需求。与2D乳房x线照相术类似，DBT切片以高分辨率(通常为50-80 μm)记录，以捕获钙化等细节。此外，每个视图的切片数量各不相同(每个视图有50到100张图像)，这意味着假设固定大小输入的典型模型不容易采用。

为了在提供给模型的信息和计算成本之间进行权衡，没有将整个DBT堆栈提供给模型，而是一次只提供部分的子集。对相邻部分进行采样，因为可疑病变通常只在堆栈的连续部分可见。通过这种方式，可以更容易地处理大量不同数量的部分。在测试期间，方法对整个DBT堆栈进行预测。模型由三个网络组成:骨干网、交互网络和聚合网络(图1)。

骨干网独立地从每个输入部分提取特征图。交互网络随后通过与相邻的部分特征交互产生每个部分的上下文感知表示。最后，聚合网络对邻居特征进行约简，生成最终的预测分数、包含恶性病变的可能性以及恶性病变的热图。下面将详细解释每种网络。

骨干网络

骨干网以单个区段作为输入，输出一个特征表示。骨干网有多种架构选择，从2D CNN到3D CNN或长短期记忆。目前的方法旨在捕获相邻部分之间的关系，但我们选择使用二维主干来适应二维乳房x线照片的预训练。

交互网络

交互网络的目的是捕获相邻部分的上下文，并对骨干网络提取的空间特征进行处理。实验了两种架构:TimeSformer(17)和3D卷积基线(Conv3D)。对于后者，堆叠了四个由3D卷积和批归一化和激活层组成的3D残差块(5,18)。

TimeSformer(17)是最近推出的一种用于高效视频分类的变压器架构。将输入分解为补丁，即我们数据集扫描中的每个部分，这些补丁随后用作Transformer的输入令牌。然后对令牌进行分割时空注意，分别处理时间注意和空间注意(图2)。通过这种方式，可以有效地处理3D体积，而不会牺牲表现能力。当部署到DBT扫描时，剖面轴表示时间维度，高度和宽度表示空间维度。