Linking In-plane and Through-plane Transformers for Simultaneous CT Image Denoising and Deblurring

本文链接：https://blog.youkuaiyun.com/weixin_43790925/article/details/138356581

本文提出LIT-Former模型，用于三维低剂量CT成像的平面内去噪和透平面去模糊。该模型结合卷积和Transformer网络，设计了eMSM和eCFN模块，降低计算复杂度。实验表明，LIT-Former性能优越，可扩展到3D去噪任务，不过存在数据、图像质量反馈和纵向伪影等问题待解决。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LIT-Former：连接平面内和贯穿平面Transformer，用于CT图像去噪和去模糊

在这里插入图片描述

论文链接：https://arxiv.org/abs/2302.10630

项目链接：https://github.com/hao1635/LIT-Former

Abstract

本文研究了三维低剂量计算机断层扫描成像技术。尽管在此背景下开发了各种深度学习方法，但它们通常侧重于2D图像，并分别执行低剂量去噪和超分辨率去模糊。同时进行平面内去噪和透平面去模糊是获得低辐射、高成像速度的高质量三维CT图像的重要手段，但目前研究较少。对于这项任务，一个简单的方法是直接训练一个端到端的3D网络。然而，它需要更多的训练数据和昂贵的计算成本。在这里，我们提出将平面内和贯穿平面Transformer连接起来，同时进行平面内去噪和平面内去模糊，称为LIT-Former，它可以有效地协同三维CT成像的平面内和透面子任务，并具有卷积网络和Transformer网络的优点。LIT-former有两种新颖的设计:高效的多头自注意模块(eMSM)和高效的卷积前馈网络(eCFN)。首先，eMSM集成了平面内二维自注意和平面内一维自注意，有效捕获Transformer网络核心单元三维自注意的全局相互作用。其次，eCFN结合二维卷积和一维卷积，以同样的方式提取三维卷积的局部信息。因此，拟议的LIT-Former协同了这两个子任务，与3D任务相比，显着降低了计算复杂度，并实现了快速收敛。在模拟和临床数据集上的大量实验结果表明，与现有技术的模型相比，性能优越。

I. INTRODUCTION

计算机断层扫描(CT)使用x射线设备产生身体的横截面图像，这是用于筛查，诊断和图像引导干预的最广泛使用的医学成像方式之一。高信噪比和高分辨率是保证高质量CT成像的两个重要因素。

一方面，高信噪比需要高剂量的X射线辐射，这可能对人体健康造成不可避免的危害，甚至诱发癌症[1]。然而，降低辐射剂量会增加噪声并在重建的CT图像中引入伪影。因此，由于低剂量CT图像的病态性，如何对其进行降噪一直是一个具有挑战性的问题。另一方面，利用较大的切片厚度和切片间隔重构CT图像，可以加快成像速度，降低图像噪声。然而，由此产生的低纵向分辨率CT (LRCT)图像可能会降低图像质量，并可能错过诊断小病变的关键特征，特别是在低剂量CT肺癌筛查试验中[2]，[3]。此外，在一些欠发达地区，由于硬件的限制，CT设备可能不具备实现薄层扫描的能力。尽管已经提出了各种用于LDCT去噪[4]-[17]或LRCT去模糊/超分辨率[18]-[20]的深度学习方法，并取得了令人印象深刻的结果，但这些方法要么只关注去噪，要么只关注去模糊，并且主要专注于2D图像。

随着体检和疾病筛查需求的增加，低剂量CT扫描需要达到更好的成像质量和更快的成像速度[21]，[22]。据我们所知，对于高质量的三维CT成像，同时解决平面内去噪和通过平面去模糊的方法很少，因为增加另一个维度更具挑战性，特别是对于医学图像[23]。此外，直接训练端到端3D网络将需要大量的训练数据并增加沉重的计算负担。

在本文中，我们研究了三维低剂量CT成像，同时进行平面内去噪和平面去模糊，以获得高质量的三维CT体积。同时进行平面内去噪和透平面去模糊任务，不仅可以降低CT切片的噪声，而且可以通过减小扫描切片厚度/间隔来提高CT体积的纵向分辨率。也就是说，本课题旨在从低剂量、厚层/低分辨率CT体积出发，提高CT成像质量，有效缩短扫描时间，降低患者过度辐射暴露的风险。

对于这项任务，我们提出了连接平面内和通过平面Transformer(LIT-Former)，其灵感来自视频识别中的(2+1)D卷积[24]-[26]。然而，由于感受野有限，卷积算子在捕获远程依赖关系方面存在局限性[27]。一种更强大的替代方案是具有自注意机制的基于Transformer的网络[27]-[32]，它可以有效地提取全局信息，并灵活地适应输入内容。然而，由于键查询点积运算，计算复杂度随着输入维数的增加而显著增加[33]，并且标准Transformer在捕获局部交互方面存在限制[31]，这对图像恢复很重要[32]。最近，已经有一些努力将Transformer和卷积结合起来以获得全局和局部信息[27]，[30]-[32]，但它们几乎局限于二维图像任务。

与上述已有的工作不同，本文提出的LIT-Former基于U形框架，下采样时特征映射的通平面深度不变，与大多数超分辨率框架相匹配[18]-[20]。在该模型中，我们将卷积和Transformer网络相结合用于三维CT成像，可以同时提取局部和全局信息。为了更好地在不同方向上协同去噪和去模糊两个子任务，降低计算成本，我们设计了两个关键模块:高效多头自注意模块(eMSM)和高效卷积前馈网络(eCFN)，具体如下。

首先，eMSM是由vanilla多头自注意改进而来的[28]。具体而言，利用全局平均池化(GAP)分别生成平面内注意输入和平面内注意输入两个嵌入向量。对于去噪任务，通过转置注意操作传递平面内注意输入生成注意图，该操作有效地计算跨特征通道的交叉协方差[27]。对于去模糊任务，我们使用vanilla自注意机制[28]来处理顺序贯穿平面的注意输入。通过元素加法运算将两者直接累加到最终输出中，并与输入特征映射进行残差连接，实现两个方向的信息融合。其次，eCFN通过两个独立且连续的操作实现三维卷积：二维平面内卷积和一维平面内卷积。两个滤波器在两个路径上并行，最终输出由元素加法操作生成。因此，上述两个块可以将三维操作分解为面内方向和透平面方向，分别对应于面内去噪任务和透平面去模糊任务。更重要的是，我们的模型具有完整的2D和1D操作，与3D模型相比，计算复杂度更低，参数更少，可以有效地优化模型，防止潜在的过拟合。

我们在模拟数据集和临床数据集上进行了广泛的实验，证明LIT-Former在研究任务的两个数据集上都建立了新的技术水平。值得注意的是，与3D模型相比，LIT-Former算法性能更好，收敛速度更快，计算复杂度更低，参数更少。详细的消融研究进一步验证了我们的基本组件的有效性和研究任务的优势。此外，我们的LIT-Former可以很容易地扩展到3D去噪任务，与2D平面内去噪模型相比，具有竞争力的性能。

综上所述，本工作的主要贡献如下。

首次研究了三维CT成像的面内去噪和透面去噪同时进行的问题，为获得低辐射、快成像速度的临床常规CT图像提供了一项有价值的工作。
我们建议将平面内和贯穿平面Transformer或lLIT-former连接起来，用于低剂量和低纵向分辨率体积的三维CT成像，这是一种计算效率高的模型，它集成了卷积和Transformer网络，以更好地捕获局部和全局信息。
为了更好地协同两个子任务并降低计算成本，本文提出的eMSM和eCFN分别通过整合二维平面内分量和一维平面内分量来有效实现三维自注意机制和三维卷积，这两个子任务自然对应于这两个子任务。

本文的其余部分组织如下。我们首先提出了所提出的LIT-Former的总体框架，并介绍了eMSM和eCFN的两个关键设计，以及第二节中的损失函数。第三部分提供了模拟和临床数据集的综合实验结果。第四节讨论了我们的方法的优点和局限性以及一些相关的工作，然后在第五节进行总结。

II. METHODS

本研究的主要目标是建立一个有效且高效的模型来处理三维CT成像，包括两个子任务：平面内去噪和贯穿平面去模糊。为了降低计算成本并改善横向平面内和横向平面内的全局和局部交互，我们提出了高效的多头自注意模块(eMSM)和高效的卷积前馈网络(eCFN)。下面，我们首先在小节II-A中描述了LIT-Former的总体框架和层次结构。然后，我们分别在小节IIB和小节II-C中描述eMSM和eCFN模块，然后在小节II-D中详细介绍所使用的损失函数。

A. LIT-Former总体框架

图1(a)给出了LIT-Former的顶层架构，它是一个U型框架，采用4级编码器-解码器设计。编码器和解码器的每个级别都包含由eMSM和eCFN组成的LIT块。具体来说，给定低剂量低纵向分辨率体积， ${\mathbf{I}}_{\mathrm{LDR}}\in\mathbb{R}^{1\times D\times H\times W},$ ，其中H×W为横向图像大小，D为切片数。LIT-Former的编码器首先采用eCFN块提取底层特征， $\mathbf{F}_{0}\in\mathbb{R}^{ {C\times D\times H\times W}}$ ，其中C表示通道数。然后，通过四个LIT块传递 $\mathbf{F}_{0}$ 。在两个相邻的LIT块之间，我们使用最大池化操作对特征映射进行下采样。值得注意的是，由于我们的任务需要同时进行面内去噪和通面去模糊，因此面内降采样仅在横向逐块进行，而纵向深度保持不变，这与vanilla 3DUnet[34]中使用的三个方向都进行降采样不同。最后，编码器生成潜在特征映射 $\mathbf{F}_{L}=\mathbb{R}^{8C\times D\times\frac{H}{8}\times\frac{W}{8}}$ ，作为解码器的输入。

解码器以潜在特征映射 $\mathbf{F}_{L}$ 作为输入，利用三个LIT块恢复高级深度特征。我们采用深度不变的三线性插值上采样。编码器和解码器都通过eCFN块中的(2+1)D卷积改变通道容量。为了使学习过程更容易，编码器中每个级别的块的输出特征通过残差连接添加到解码器中相同级别块的输入中。经过这四个阶段，通过eCFN块和全局残差对深度特征图 $F_D$ 进行丰富，得到密集特征图 $F_{DF}$ ：即 $\mathbf{F}_{\mathrm{DF}}=\mathbf{F}_{\mathrm{D}}+\mathbf{F}_{0}$ 。然后，在纵向维度上进行纵向三线性运算，实现通过平面的上采样。最后，对密集特征图应用eCFN块生成恢复后的正常剂量高纵向分辨率体积 $\hat{\mathbf{I}}_{\mathrm{NDR}}\in\mathbb{R}^{1\times rD\times H\times W}$ ，其中R为通面去模糊的比例因子。

在这里插入图片描述

B. 高效多头自注意模块

具有自注意机制的视觉Transformer[35]在许多任务中显示出有效性。然而，标准的自注意[28]，[35]对于输入图像具有二次复杂度，即对于输入尺寸 $C \times W \times H$ ，复杂度为 $\mathcal{O}\left(W^{2}H^{2}C\right)$ 。对于CT体积等3D数据，复杂度更具挑战性，因为输入标记随着图像尺寸和输入切片数量的增加而呈三次增长。也就是说，传统的自注意机制对于我们的任务来说是计算昂贵的，并且对于当前内存有限的GPU来说是不可行的。

为了解决这个问题，我们提出了高效的多头自注意模块(eMSM)，如图1(b)所示，它受益于自注意，通过集成平面内和贯穿平面组件来捕获远程交互和实现通用的3D注意方案。通过这种方法，将平面内去噪和通平面去模糊两个子任务集成在一起，避免了立方复杂度。平面内分支使用转置的注意力操作来计算跨特征通道的交叉协方差[27]，而贯穿平面分支执行标准的注意力操作[28]。在面内分支中，我们在键查询点积运算之前在通道维度上实现多头注意，类似于之前的工作[27]。在通平面分支中，我们遵循vanilla自注意机制实现多头[28]，[36]。

具体来说，假设特征映射 $F_{l−1}$ 是第 $l$ 个块的输入，我们构建由平面内分支(eMSM-I)和平面分支(eMSM-T)组成的eMSM块。我们使用下标in和th分别区分平面内分支和面内分支中的函数、变量和操作。下面，我们分别阐述eMSM-I和eMSM-T。

1) eMSM的面内分支(eMSM-I)：在面内分支之前，为了提高计算效率，我们首先在平面方向上使用全局平均池化 $GAP_{in}$ 将纵向维数降为1，并通过重塑操作产生输入向量， $X_{in}∈\mathbb{R}^{C×H×W}$ ，即 $X_{in} = GAP_{in} (F_{l−1})$ 。然后，与在patch上操作的令牌嵌入不同[35]， $X_{in}$ 通过1×1卷积和3×3深度卷积产生查询( $Q_{in}$ )、键( $K_{in}$ )和值( $V_{in}$ )，聚合通道内容，其表示为：
$\begin{cases}\mathbf{Q}_{\mathrm{in}}=f_{\mathrm{in}}^{Q}(\mathbf{X}_{\mathrm{in}})=f_{\mathrm{in}}^{Q}(\mathrm{GAP}_{\mathrm{in}}(\mathbf{F}_{l-1})),\\\mathbf{K}_{\mathrm{in}}=f_{\mathrm{in}}^{K}(\mathbf{X}_{\mathrm{in}})=f_{\mathrm{in}}^{K}(\mathrm{GAP}_{\mathrm{in}}(\mathbf{F}_{l-1})),\\\mathbf{V}_{\mathrm{in}}=f_{\mathrm{in}}^{V}(\mathbf{X}_{\mathrm{in}})=f_{\mathrm{in}}^{V}(\mathrm{GAP}_{\mathrm{in}}(\mathbf{F}_{l-1})),\end{cases} \tag{1}$