WIA-LD2ND: Wavelet-based Image Alignment for Self-supervised Low-Dose CT Denoising-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43790925/article/details/145688629

WIA-LD2ND：基于小波的自监督低剂量CT去噪图像对齐

在这里插入图片描述

论文链接：https://papers.miccai.org/miccai-2024/848-Paper0783.html

项目链接：https://github.com/zhaohaoyu376/WI-LD2ND

Abstract

在临床检查和诊断中，与正常剂量计算机断层扫描（NDCT）相比，低剂量计算机断层摄影（LDCT）对于最大限度地降低健康风险至关重要。然而，减少辐射剂量会损害信噪比，导致CT图像质量下降。为了解决这个问题，我们从频率的角度分析了基于实验结果的LDCT去噪任务，然后介绍了一种新的自监督CT图像去噪方法WIA-LD2ND，仅使用NDCT数据。所提出的WIA-LD2ND包括两个模块：基于小波的图像对齐（WIA）和频率感知多尺度损失（FAM）。首先，引入WIA，主要通过向高频分量添加噪声来对齐NDCT和LDCT，这是LDCT和NDCT的主要区别。其次，为了更好地捕获高频分量和详细信息，通过有效利用多尺度特征空间，提出了频率感知多尺度损失（FAM）。在两个公共LDCT去噪数据集上进行的广泛实验表明，我们的WIA-LD2ND仅使用NDCT，其性能优于现有的几种最先进的弱监督和自监督方法。

1 Introduction

计算机断层扫描（CT）已成为医学诊断中广泛使用的工具。然而，使用量的增加引发了人们对过度辐射暴露相关潜在风险的担忧[11]。广泛认可的ALARA原则（尽可能低）[25]被广泛接受，通过采用稀疏采样和减少管通量等策略来最大限度地减少暴露。然而，减少X射线辐射剂量会导致图像质量下降，并带有明显的噪声，这给准确诊断带来了挑战[4]。因此，开发能够有效处理CT模态的图像去噪技术[31]成为临床实践中的关键和迫切需求，以确保患者安全和诊断精度。

近年来，先进的深度学习网络已被证明在低剂量计算机断层扫描（LDCT）中比传统的去噪方法更有效地降低噪声[3,7]。监督去噪方法[16,15]，如CTformer[27]和ASCON[2]，学习从低剂量到正常剂量CT图像的端到端映射。生成对抗网络（GAN）也用于LDCT去噪任务，该任务不需要配对数据，但需要大量未配对数据进行训练[24,1,14,12]。

尽管取得了令人印象深刻的结果，但这些方法遇到了挑战，因为它们需要LDCT和NDCT图像[18]，无论是配对图像还是大量未配对图像，由于成本高、隐私和伦理问题，这些图像在实践中往往不可用。因此，开发自监督方法至关重要，这些方法利用深度神经网络的强大功能，同时最大限度地减少对大量标记数据的需求。已经提出了几种用于LDCT去噪的自监督方法，包括但不限于Blin2Unblind[28]、Noise2Sim[23]、Neighbor2Neighbor[10]和FIRE[19]等[26,13,28]。然而，这些方法主要集中在空间域信息上，忽略了频域细节的关键重要性。低剂量CT和正常剂量CT在高频分量方面的关键区别（见图1）尚未得到很好的探索。

在这里插入图片描述

本文设计了一种新的自监督LDCT去噪方法，仅使用NDCT数据，称为WIA-LD2ND。我们首先从频率角度分析LDCT去噪任务，然后提出了一个称为基于小波的图像对齐（WIA）的模块，该模块主要通过向LDCT和NDCT的高频分量添加噪声来将LDCT与NDCT对齐。我们还提出了一个名为频率感知多尺度损失（FAM）的模块，用于在多尺度特征空间中捕获高频分量。

我们的WIA-LD2ND提供了以下三个主要贡献：1）我们从频率的角度分析了LDCT去噪任务，为其优化提供了新的见解。2）我们引入了一个简单高效的模块来对齐NDCT和LDCT，促进自监督学习。3）我们提出了一种频率感知的多尺度损失，使重建网络能够有效地处理高频分量。

2 Method

图2显示了所提出的WIA-LD2ND的概述，它由两个新模块组成：基于小波的图像对齐（WIA）和频率感知多尺度损失（FAM）。NDCT图像x通过WIA以破坏一些高频分量，然后馈入重建网络。重建CT y和输入x的高频分量[yLH，yHL，yHH]和[xLH，xHL，xHH]相对平坦，难以捕获[5]，如图1（a）所示。为了应对这一挑战，我们建议将这些高频分量集成到编码器中，以计算特征空间内的损失 $\mathcal{L}_{\text{FAM}}$ ，从而提高重建网络更有效地捕获高频分量和详细信息的能力。在训练过程中，我们采用交替学习策略来优化重建网络和FAM，以提高学习效率和结果准确性，这与基于GAN的方法相似[32]。我们首先从一个新的角度分析LDCT去噪任务，然后详细介绍两个提出的模块。

在这里插入图片描述

2.1 从频率角度分析LDCT去噪

图像包含不同的频率范围和空间位置信息。离散小波变换（DWT）使用[17]中的Haar小波，因其简单高效而被选为频率分析。DWT通常用于计算机视觉领域，它提供了一种简单且计算有效的技术，可以将输入图像划分为低频子带和高频子带。它有四个滤波器，LL^T、LH^T、HL^T和HH^T，分别展示了纹理、水平细节、垂直细节和对角线信息[29]，其中低通和高通滤波器是：
$L^T=\frac{1}{\sqrt{2}}[1,1],H^T=\frac{1}{\sqrt{2}}[-1,1] \tag{1}$
如图1（a）所示，DWT后，在高频子图像[LH、HL、HH]中观察到正常剂量CT（NDCT）和低剂量CT（LDCT）之间的主要差异，LL差异很小。图1（b-e）进一步支持了我们的结论，表明LDCT和NDCT在特征空间的高频分量上存在显著差异，而低频分量的差异相对较小。在图3（a-c）和图4中，我们发现之前的LDCT去噪方法，如BM3D[3]，在重建高频分量方面表现不佳。

在这里插入图片描述

基于这些观察结果，我们得出结论，高频分量应该是LDCT去噪的主要重点，而以前的方法在这方面最不可靠。这突显了在去噪过程中改进处理高频分量的技术的关键必要性。

2.2 基于小波的图像对齐

根据前面的分析，我们采用离散小波变换（DWT）将输入图像x分解为两组分量：低频分量 $x_{LL}$ ，用于捕获和保留平滑表面和纹理信息；高频分量 $x_{LH}, x_{HL},x_{HH}]$ 。这些高频分量对于捕捉复杂的纹理细节至关重要，代表了低剂量CT（LDCT）和正常剂量CT（NDCT）图像之间的主要区别。因此，我们通过在NDCT和LDCT图像的高频分量中主要添加高斯噪声，以一种简单有效的方式使它们相似。
$x_{LL}^{\prime}=x_{LL}+\text{noise}_{LL}, \\x_{LH}^{\prime}=x_{LH}+\text{noise}_{LH},\\ x_{HL}^{\prime}=x_{HL}+\text{noise}_{HL}, \\x_{HH}^{\prime}=x_{HH}+\text{noise}_{HH}, \tag{2}$
其中 $\text{noise}_{LL}、\text{noise}_{LH}、\text{noise}_{HL}、\text{noise}_{HH}$ 分别遵循均值为0、方差为 $\sigma_{LL}^{2},\sigma_{LH}^{2},\sigma_{HL}^{2},\sigma_{HH}^{2}$ 的高斯分布。值得注意的是， $σ_{LH}、σ_{HL}$ 和 $σ_{HH}$ 大于 $σ_{LL}$ 。然后，我们对修改后的分量 $[x_{LL}^{\prime},x_{LH}^{\prime},x_{HL}^{\prime},x_{HH}^{\prime}]$ 进行逆DWT（IDWT）以重建 $x^{\prime}$ 。如图3（d-e）所示，应用WIA模块后，NDCT和LDCT图像共享相同的特征空间，表明对齐成功。

WIA消除了对配对数据的需求。相反，我们只需要NDCT图像来训练模型，使其从 $x^{\prime}$ （WIA后的NDCT）去噪到x（原始NDCT），从而促进自监督学习。

2.3 频率感知多尺度损失

如第2.1节所述，高频分量在低剂量CT图像去噪中起着至关重要的作用。然而，基于CNN和基于Transformer的模型往往主要关注低频表示，这使得模型难以捕捉高频分量[5]。因此，我们设计了频率感知多尺度损失（FAM），使网络更加关注图像的高频分量和细节信息。

去噪CT $y$ 和NDCT $x$ 的高频分量 $y_{LH},y_{HL},y_{HH}]$ 和 $x_{LH}，x_{HL}，x_{HH}]$ 分别馈入在线编码器 $E$ 和目标编码器 $E^′$ ，两者都使用相同的轻量级架构。根据之前的研究[6,8]，目标编码器 $E^′$ 的参数是在线编码器 $E$ 中参数的指数移动平均值。过程如下：
$f_{1},f_{2},f_{3}=E(x_{LH},x_{HL},x_{HH}),\\f_{1}^{\prime},f_{2}^{\prime},f_{3}^{\prime}=E^{\prime}(y_{LH},y_{HL},y_{HH}).\tag{3}$
我们在编码器中引入了一种频率感知注意力机制，旨在根据输入特征图中的频率内容选择性地强调或去强调这些区域，如图2所示。给定输入特征图 $f_{n\{n=1,2,3\}}$ ，我们应用最大和平均池来提取突出特征。然后，我们将它们连接起来，并通过Sigmoid激活的卷积层来生成空间注意力权重。

在这里插入图片描述

与之前的研究[2,30]不同，我们的方法将从特定层提取的多尺度特征分割成块 $f^{(i)}_n$ 。然后，我们选择与相邻对应物最相似的patch，重点关注那些表现出与高频分量密切相关的共享结构特征的patch。为此，我们在特征空间上使用余弦相似度s：
$\mathrm{s}(i,j)=f^{(i)^\top}f^{(j)}/\|f^{(i)}\|_2\|f^{(j)}\|_2. \tag{4}$
然后，我们选择相似的特征块 $\{f_{n}^{(j)}\}_{j\in P^{(i)}}$ ，其中 $P^(i)$ 是前四个特征块的一组特征块索引。对于来自在线网络的 $f^{\prime(i)}$ ，我们选择相同的正特征块 $P^{(i)}$ 。然后，我们使用全局平均池（GAP）和多层感知器（MLP）聚合正patch $\left\{f_{n}^{(j)}\right\}_{j\in P^{(i)}}$ 和 $\left\{f_{n}^{\prime(j)}\right\}_{j\in P^{(i)}}$ ，分别产生 $g$ 和 $g^\prime$ 。最后，频率感知多尺度损失 $\mathcal{L}_\text{FAM}$ 由下式给出：
$\mathcal{L}_{FAM}=\|g-g^{\prime}\|_{2}^{2}. \tag{5}$
最终损失定义为 $\mathcal{L}=\mathcal{L}_{pixel}(x,y)+\lambda\mathcal{L}_{FAM}$ ，其中 $\mathcal{L}_pixel$ 由两个常见的监督损失组成：MSE和SSIM，定义为 $\mathcal{L}_{pixel}(x,y)= \mathcal{L}_{MSE}(x,y)+\mathcal{L}_{SSIM}(x,y)$ 。本文将λ设置为0.01。

3 Experiments

3.1 数据集和训练细节

我们在美国国立卫生研究院AAPM梅奥诊所低剂量CT大挑战赛的两个公共LDCT去噪数据集Mayo-2016和Mayo-2020上进行了实验[21,22]。我们在Mayo-2016从9名患者中选择了5410对图像对（512×512）进行训练，526对进行测试。我们选择{1mm，D45}的重建参数组合。从Mayo-2020，12名患者的2082对（512×512）用于训练，4名患者的672对用于测试。

在我们所有的实验中，我们只使用NDCT，并选择与[32,24]中使用的骨干网相同的骨干网，同时采用与[2]中相同的数据增强策略。对于Mayo-2016，我们在公式（2）中设置了 $σ_{LL}=100$ 、 $σ_{LH}=200$ 、 $σ_{HL}=200$ 和 $σ_{HH}=150$ 。Mayo-2020，噪声方差为 $σ_{LL}=25$ 、 $σ_{LH}=50$ 、 $σ_{HL}=50$ 和 $σ_{HH}=50$ 。我们采用Adam优化器，动量参数为 $β_1=0.9$ ， $β_2=0.99$ ，初始学习率为1.0×10⁻⁴。我们的网络使用单个NVIDIA GeForce RTX 3090训练了200多个epoch。

3.2 实验结果

为了评估我们的WIA-LD2ND的去噪效果，我们对各种去噪方法进行了比较实验。比较包括BM3D[3]等传统方法，DIP[26]、Noise2Sim[23]、Blind2Unblind[28]、Neighbor2Neighbor[10]和ZS-N2N[20]等自监督方法，以及CycleGAN[32]和CUT[24]等弱监督方法。我们使用两种广泛采用的指标，即峰值信噪比（PSNR）和结构相似性指数度量（SSIM）来评估性能。

表1显示，我们的WIA-LD2ND仅使用NDCT图像，就可以在2016年5月和2020年5月的数据集上取得良好的性能。与最新的最先进的自监督和弱监督方法相比，我们的WIA-LD2ND实现了显著的性能改进。

在这里插入图片描述

图4显示了重建结果，图片左下角的子图显示了噪声功率谱（NPS），其中蓝色表示它更接近正常剂量CT。如图所示，我们的WIA-LD2ND获得了最佳结果，重建了最详细的信息，并显示了最蓝的NPS。相反，BM3D和DIP的结果被过度平滑，并受到结构化伪影的影响。此外，其他基于深度学习的方法倾向于积极地去除噪声。我们的WIA-LD2ND优先考虑保留信息细节。

在这里插入图片描述

消融研究。为了评估我们提出的模块（包括WIA和FAM）的有效性，我们在Mayo-2016[21]和Mayo-2020[202]进行了消融实验。结果如表2所示。 $WIA^*$ 表示直接向NDCT添加噪声，而 $FAM^*$ 涉及直接计算高频分量特征的MSE损失。我们的设计比它们的变体具有更好的性能。它表明，WIA和FAM都设计良好，有助于提高性能。补充材料中提供了更多关于额外超参数和噪声参数的消融研究。与基线相比，WIA-LD2ND的参数增加了2.46M。考虑到在没有任何额外推理时间的情况下，与基线模型相比性能有了显著提高，培训成本的轻微增加是可以接受的。

在这里插入图片描述

4 Discussion and Conclusion

本文从一个新的角度分析了LDCT去噪任务，并提出了一种称为WIA-LD2ND的自监督方法。该方法仅利用NDCT图像，并结合了两个新模块：基于小波的图像对齐（WIA）通过破坏一些高频分量来对齐NDCT和LDCT，以及频率感知多尺度损失（FAM），它增强了重建网络捕获高频分量和详细信息的能力，从而提高了去噪性能。大量的实验结果证明了我们设计的卓越性能和有效性。值得注意的是，与训练期间的基线相比，WIA-LD2ND将参数数量增加了2.46M，而不需要额外的推理时间。从频率角度探索LDCT去噪是未来研究的一个有前景的方向。