6.26.3 基于Transformer的深度神经网络在数字乳腺断层合成图像上的乳腺癌分类

        开发一种有效的深度神经网络模型,该模型结合了相邻图像部分的上下文,以检测数字乳腺断层合成(DBT)图像上的乳腺癌。

        数字乳房断层合成(DBT)是一种医学成像技术,其中检测器围绕患者以有限角度旋转并记录多幅图像。然后将这些图像重建为二维(2D)切片堆栈,从而改进病变检测、表征和定位。许多研究表明,与2D数字乳房x线摄影相比,DBT在筛查和诊断成像结果方面都有改善(1,2)。虽然DBT正在成为乳腺癌检测的标准,但其解释时间仍然是一个问题(3)。

        使用神经网络进行DBT的一个关键挑战是三维(3D)数据量;每次扫描都有很高的空间分辨率和几个部分,这意味着一个病例在未压缩的情况下可以很容易地得到几GB的数据。此外,3D cnn(5)由于其庞大的计算成本而难以应用。因此,大多数DBT的计算机辅助检测方法一次只评估单个部分(6,7),或者根据每个部分的推理结果将整个DBT堆栈合成为图像并评估该图像(8-10)。这些方法的缺点是区段之间的关系没有得到最佳利用。        

材料和方法

模型开发

        DBT扫描是由从多个角度拍摄的2D x光片重建的2D切片堆叠而成(1)。方法输入重建切片的DBT堆叠,并为每个切片生成预测。该模型输出其包含恶性病变的分段可能性和包含每个分段中每个像素的预测的热图。像素的值表示该像素属于恶性病变的可能性。

        在DBT数据上训练深度神经网络是具有挑战性的,主要是因为它的高内存和计算需求。与2D乳房x线照相术类似,DBT切片以高分辨率(通常为50-80 μm)记录,以捕获钙化等细节。此外,每个视图的切片数量各不相同(每个视图有50到100张图像),这意味着假设固定大小输入的典型模型不容易采用。

        为了在提供给模型的信息和计算成本之间进行权衡,没有将整个DBT堆栈提供给模型,而是一次只提供部分的子集。对相邻部分进行采样,因为可疑病变通常只在堆栈的连续部分可见。通过这种方式,可以更容易地处理大量不同数量的部分。在测试期间,方法对整个DBT堆栈进行预测。模型由三个网络组成:骨干网、交互网络和聚合网络(图1)。

        骨干网独立地从每个输入部分提取特征图。交互网络随后通过与相邻的部分特征交互产生每个部分的上下文感知表示。最后,聚合网络对邻居特征进行约简,生成最终的预测分数、包含恶性病变的可能性以及恶性病变的热图。下面将详细解释每种网络。        

骨干网络

        骨干网以单个区段作为输入,输出一个特征表示。骨干网有多种架构选择,从2D CNN到3D CNN或长短期记忆。目前的方法旨在捕获相邻部分之间的关系,但我们选择使用二维主干来适应二维乳房x线照片的预训练。

交互网络

        交互网络的目的是捕获相邻部分的上下文,并对骨干网络提取的空间特征进行处理。实验了两种架构:TimeSformer(17)和3D卷积基线(Conv3D)。对于后者,堆叠了四个由3D卷积和批归一化和激活层组成的3D残差块(5,18)。

         TimeSformer(17)是最近推出的一种用于高效视频分类的变压器架构。将输入分解为补丁,即我们数据集扫描中的每个部分,这些补丁随后用作Transformer的输入令牌。然后对令牌进行分割时空注意,分别处理时间注意和空间注意(图2)。通过这种方式,可以有效地处理3D体积,而不会牺牲表现能力。当部署到DBT扫描时,剖面轴表示时间维度,高度和宽度表示空间维度。

        时序发生器在交互网络中划分时空注意块。对于输入中的一个标记(在左侧块中突出显示),将计算各部分(中间块)上相同空间位置上的标记的时间注意力。随后,计算同一部分(右块)中标记的空间注意力。

聚合网络

        聚合网络结合多个区段的特征,预测每个目标区段的最终区段级分数和热图。使用沿截面方向的最大池化来聚合相邻的特征图。然后使用聚合的特征图来预测中心部分和像素级热图的分数。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值