WIA-LD2ND:基于小波的自监督低剂量CT去噪图像对齐
论文链接:https://papers.miccai.org/miccai-2024/848-Paper0783.html
项目链接:https://github.com/zhaohaoyu376/WI-LD2ND
Abstract
在临床检查和诊断中,与正常剂量计算机断层扫描(NDCT)相比,低剂量计算机断层摄影(LDCT)对于最大限度地降低健康风险至关重要。然而,减少辐射剂量会损害信噪比,导致CT图像质量下降。为了解决这个问题,我们从频率的角度分析了基于实验结果的LDCT去噪任务,然后介绍了一种新的自监督CT图像去噪方法WIA-LD2ND,仅使用NDCT数据。所提出的WIA-LD2ND包括两个模块:基于小波的图像对齐(WIA)和频率感知多尺度损失(FAM)。首先,引入WIA,主要通过向高频分量添加噪声来对齐NDCT和LDCT,这是LDCT和NDCT的主要区别。其次,为了更好地捕获高频分量和详细信息,通过有效利用多尺度特征空间,提出了频率感知多尺度损失(FAM)。在两个公共LDCT去噪数据集上进行的广泛实验表明,我们的WIA-LD2ND仅使用NDCT,其性能优于现有的几种最先进的弱监督和自监督方法。
1 Introduction
计算机断层扫描(CT)已成为医学诊断中广泛使用的工具。然而,使用量的增加引发了人们对过度辐射暴露相关潜在风险的担忧[11]。广泛认可的ALARA原则(尽可能低)[25]被广泛接受,通过采用稀疏采样和减少管通量等策略来最大限度地减少暴露。然而,减少X射线辐射剂量会导致图像质量下降,并带有明显的噪声,这给准确诊断带来了挑战[4]。因此,开发能够有效处理CT模态的图像去噪技术[31]成为临床实践中的关键和迫切需求,以确保患者安全和诊断精度。
近年来,先进的深度学习网络已被证明在低剂量计算机断层扫描(LDCT)中比传统的去噪方法更有效地降低噪声[3,7]。监督去噪方法[16,15],如CTformer[27]和ASCON[2],学习从低剂量到正常剂量CT图像的端到端映射。生成对抗网络(GAN)也用于LDCT去噪任务,该任务不需要配对数据,但需要大量未配对数据进行训练[24,1,14,12]。
尽管取得了令人印象深刻的结果,但这些方法遇到了挑战,因为它们需要LDCT和NDCT图像[18],无论是配对图像还是大量未配对图像,由于成本高、隐私和伦理问题,这些图像在实践中往往不可用。因此,开发自监督方法至关重要,这些方法利用深度神经网络的强大功能,同时最大限度地减少对大量标记数据的需求。已经提出了几种用于LDCT去噪的自监督方法,包括但不限于Blin2Unblind[28]、Noise2Sim[23]、Neighbor2Neighbor[10]和FIRE[19]等[26,13,28]。然而,这些方法主要集中在空间域信息上,忽略了频域细节的关键重要性。低剂量CT和正常剂量CT在高频分量方面的关键区别(见图1)尚未得到很好的探索。
本文设计了一种新的自监督LDCT去噪方法,仅使用NDCT数据,称为WIA-LD2ND。我们首先从频率角度分析LDCT去噪任务,然后提出了一个称为基于小波的图像对齐(WIA)的模块,该模块主要通过向LDCT和NDCT的高频分量添加噪声来将LDCT与NDCT对齐。我们还提出了一个名为频率感知多尺度损失(FAM)的模块,用于在多尺度特征空间中捕获高频分量。
我们的WIA-LD2ND提供了以下三个主要贡献:1)我们从频率的角度分析了LDCT去噪任务,为其优化提供了新的见解。2) 我们引入了一个简单高效的模块来对齐NDCT和LDCT,促进自监督学习。3) 我们提出了一种频率感知的多尺度损失,使重建网络能够有效地处理高频分量。
2 Method
图2显示了所提出的WIA-LD2ND的概述,它由两个新模块组成:基于小波的图像对齐(WIA)和频率感知多尺度损失(FAM)。NDCT图像x通过WIA以破坏一些高频分量,然后馈入重建网络。重建CT y和输入x的高频分量[yLH,yHL,yHH]和[xLH,xHL,xHH]相对平坦,难以捕获[5],如图1(a)所示。为了应对这一挑战,我们建议将这些高频分量集成到编码器中,以计算特征空间内的损失 L FAM \mathcal{L}_{\text{FAM}} LFAM,从而提高重建网络更有效地捕获高频分量和详细信息的能力。在训练过程中,我们采用交替学习策略来优化重建网络和FAM,以提高学习效率和结果准确性,这与基于GAN的方法相似[32]。我们首先从一个新的角度分析LDCT去噪任务,然后详细介绍两个提出的模块。
2.1 从频率角度分析LDCT去噪
图像包含不同的频率范围和空间位置信息。离散小波变换(DWT)使用[17]中的Haar小波,因其简单高效而被选为频率分析。DWT通常用于计算机视觉领域,它提供了一种简单且计算有效的技术,可以将输入图像划分为低频子带和高频子带。它有四个滤波器,LLT、LHT、HLT和HHT,分别展示了纹理、水平细节、垂直细节和对角线信息[29],其中低通和高通滤波器是:
L
T
=
1
2
[
1
,
1
]
,
H
T
=
1
2
[
−
1
,
1
]
(1)
L^T=\frac{1}{\sqrt{2}}[1,1],H^T=\frac{1}{\sqrt{2}}[-1,1] \tag{1}
LT=21[1,1],HT=21[−1,1](1)
如图1(a)所示,DWT后,在高频子图像[LH、HL、HH]中观察到正常剂量CT(NDCT)和低剂量CT(LDCT)之间的主要差异,LL差异很小。图1(b-e)进一步支持了我们的结论,表明LDCT和NDCT在特征空间的高频分量上存在显著差异,而低频分量的差异相对较小。在图3(a-c)和图4中,我们发现之前的LDCT去噪方法,如BM3D[3],在重建高频分量方面表现不佳。
基于这些观察结果,我们得出结论,高频分量应该是LDCT去噪的主要重点,而以前的方法在这方面最不可靠。这突显了在去噪过程中改进处理高频分量的技术的关键必要性。
2.2 基于小波的图像对齐
根据前面的分析,我们采用离散小波变换(DWT)将输入图像x分解为两组分量:低频分量
x
L
L
x_{LL}
xLL,用于捕获和保留平滑表面和纹理信息;高频分量
[
x
L
H
,
x
H
L
,
x
H
H
]
[x_{LH}, x_{HL},x_{HH}]
[xLH,xHL,xHH]。这些高频分量对于捕捉复杂的纹理细节至关重要,代表了低剂量CT(LDCT)和正常剂量CT(NDCT)图像之间的主要区别。因此,我们通过在NDCT和LDCT图像的高频分量中主要添加高斯噪声,以一种简单有效的方式使它们相似。
x
L
L
′
=
x
L
L
+
noise
L
L
,
x
L
H
′
=
x
L
H
+
noise
L
H
,
x
H
L
′
=
x
H
L
+
noise
H
L
,
x
H
H
′
=
x
H
H
+
noise
H
H
,
(2)
x_{LL}^{\prime}=x_{LL}+\text{noise}_{LL}, \\x_{LH}^{\prime}=x_{LH}+\text{noise}_{LH},\\ x_{HL}^{\prime}=x_{HL}+\text{noise}_{HL}, \\x_{HH}^{\prime}=x_{HH}+\text{noise}_{HH}, \tag{2}
xLL′=xLL+noiseLL,xLH′=xLH+noiseLH,xHL′=xHL+noiseHL,xHH′=xHH+noiseHH,(2)
其中
noise
L
L
、
noise
L
H
、
noise
H
L
、
noise
H
H
\text{noise}_{LL}、\text{noise}_{LH}、\text{noise}_{HL}、\text{noise}_{HH}
noiseLL、noiseLH、noiseHL、noiseHH分别遵循均值为0、方差为
σ
L
L
2
,
σ
L
H
2
,
σ
H
L
2
,
σ
H
H
2
\sigma_{LL}^{2},\sigma_{LH}^{2},\sigma_{HL}^{2},\sigma_{HH}^{2}
σLL2,σLH2,σHL2,σHH2的高斯分布。值得注意的是,
σ
L
H
、
σ
H
L
σ_{LH}、σ_{HL}
σLH、σHL和
σ
H
H
σ_{HH}
σHH大于
σ
L
L
σ_{LL}
σLL。然后,我们对修改后的分量
[
x
L
L
′
,
x
L
H
′
,
x
H
L
′
,
x
H
H
′
]
[x_{LL}^{\prime},x_{LH}^{\prime},x_{HL}^{\prime},x_{HH}^{\prime}]
[xLL′,xLH′,xHL′,xHH′]进行逆DWT(IDWT)以重建
x
′
x^{\prime}
x′。如图3(d-e)所示,应用WIA模块后,NDCT和LDCT图像共享相同的特征空间,表明对齐成功。
WIA消除了对配对数据的需求。相反,我们只需要NDCT图像来训练模型,使其从 x ′ x^{\prime} x′(WIA后的NDCT)去噪到x(原始NDCT),从而促进自监督学习。
2.3 频率感知多尺度损失
如第2.1节所述,高频分量在低剂量CT图像去噪中起着至关重要的作用。然而,基于CNN和基于Transformer的模型往往主要关注低频表示,这使得模型难以捕捉高频分量[5]。因此,我们设计了频率感知多尺度损失(FAM),使网络更加关注图像的高频分量和细节信息。
去噪CT
y
y
y和NDCT
x
x
x的高频分量
[
y
L
H
,
y
H
L
,
y
H
H
]
[y_{LH},y_{HL},y_{HH}]
[yLH,yHL,yHH]和
[
x
L
H
,
x
H
L
,
x
H
H
]
[x_{LH},x_{HL},x_{HH}]
[xLH,xHL,xHH]分别馈入在线编码器
E
E
E和目标编码器
E
′
E^′
E′,两者都使用相同的轻量级架构。根据之前的研究[6,8],目标编码器
E
′
E^′
E′的参数是在线编码器
E
E
E中参数的指数移动平均值。过程如下:
f
1
,
f
2
,
f
3
=
E
(
x
L
H
,
x
H
L
,
x
H
H
)
,
f
1
′
,
f
2
′
,
f
3
′
=
E
′
(
y
L
H
,
y
H
L
,
y
H
H
)
.
(3)
f_{1},f_{2},f_{3}=E(x_{LH},x_{HL},x_{HH}),\\f_{1}^{\prime},f_{2}^{\prime},f_{3}^{\prime}=E^{\prime}(y_{LH},y_{HL},y_{HH}).\tag{3}
f1,f2,f3=E(xLH,xHL,xHH),f1′,f2′,f3′=E′(yLH,yHL,yHH).(3)
我们在编码器中引入了一种频率感知注意力机制,旨在根据输入特征图中的频率内容选择性地强调或去强调这些区域,如图2所示。给定输入特征图
f
n
{
n
=
1
,
2
,
3
}
f_{n\{n=1,2,3\}}
fn{n=1,2,3},我们应用最大和平均池来提取突出特征。然后,我们将它们连接起来,并通过Sigmoid激活的卷积层来生成空间注意力权重。
与之前的研究[2,30]不同,我们的方法将从特定层提取的多尺度特征分割成块
f
n
(
i
)
f^{(i)}_n
fn(i)。然后,我们选择与相邻对应物最相似的patch,重点关注那些表现出与高频分量密切相关的共享结构特征的patch。为此,我们在特征空间上使用余弦相似度s:
s
(
i
,
j
)
=
f
(
i
)
⊤
f
(
j
)
/
∥
f
(
i
)
∥
2
∥
f
(
j
)
∥
2
.
(4)
\mathrm{s}(i,j)=f^{(i)^\top}f^{(j)}/\|f^{(i)}\|_2\|f^{(j)}\|_2. \tag{4}
s(i,j)=f(i)⊤f(j)/∥f(i)∥2∥f(j)∥2.(4)
然后,我们选择相似的特征块
{
f
n
(
j
)
}
j
∈
P
(
i
)
\{f_{n}^{(j)}\}_{j\in P^{(i)}}
{fn(j)}j∈P(i),其中
P
(
i
)
P^(i)
P(i)是前四个特征块的一组特征块索引。对于来自在线网络的
f
′
(
i
)
f^{\prime(i)}
f′(i),我们选择相同的正特征块
P
(
i
)
P^{(i)}
P(i)。然后,我们使用全局平均池(GAP)和多层感知器(MLP)聚合正patch
{
f
n
(
j
)
}
j
∈
P
(
i
)
\left\{f_{n}^{(j)}\right\}_{j\in P^{(i)}}
{fn(j)}j∈P(i)和
{
f
n
′
(
j
)
}
j
∈
P
(
i
)
\left\{f_{n}^{\prime(j)}\right\}_{j\in P^{(i)}}
{fn′(j)}j∈P(i),分别产生
g
g
g和
g
′
g^\prime
g′。最后,频率感知多尺度损失
L
FAM
\mathcal{L}_\text{FAM}
LFAM由下式给出:
L
F
A
M
=
∥
g
−
g
′
∥
2
2
.
(5)
\mathcal{L}_{FAM}=\|g-g^{\prime}\|_{2}^{2}. \tag{5}
LFAM=∥g−g′∥22.(5)
最终损失定义为
L
=
L
p
i
x
e
l
(
x
,
y
)
+
λ
L
F
A
M
\mathcal{L}=\mathcal{L}_{pixel}(x,y)+\lambda\mathcal{L}_{FAM}
L=Lpixel(x,y)+λLFAM,其中
L
p
i
x
e
l
\mathcal{L}_pixel
Lpixel由两个常见的监督损失组成:MSE和SSIM,定义为
L
p
i
x
e
l
(
x
,
y
)
=
L
M
S
E
(
x
,
y
)
+
L
S
S
I
M
(
x
,
y
)
\mathcal{L}_{pixel}(x,y)= \mathcal{L}_{MSE}(x,y)+\mathcal{L}_{SSIM}(x,y)
Lpixel(x,y)=LMSE(x,y)+LSSIM(x,y)。本文将λ设置为0.01。
3 Experiments
3.1 数据集和训练细节
我们在美国国立卫生研究院AAPM梅奥诊所低剂量CT大挑战赛的两个公共LDCT去噪数据集Mayo-2016和Mayo-2020上进行了实验[21,22]。我们在Mayo-2016从9名患者中选择了5410对图像对(512×512)进行训练,526对进行测试。我们选择{1mm,D45}的重建参数组合。从Mayo-2020,12名患者的2082对(512×512)用于训练,4名患者的672对用于测试。
在我们所有的实验中,我们只使用NDCT,并选择与[32,24]中使用的骨干网相同的骨干网,同时采用与[2]中相同的数据增强策略。对于Mayo-2016,我们在公式(2)中设置了 σ L L = 100 σ_{LL}=100 σLL=100、 σ L H = 200 σ_{LH}=200 σLH=200、 σ H L = 200 σ_{HL}=200 σHL=200和 σ H H = 150 σ_{HH}=150 σHH=150。Mayo-2020,噪声方差为 σ L L = 25 σ_{LL}=25 σLL=25、 σ L H = 50 σ_{LH}=50 σLH=50、 σ H L = 50 σ_{HL}=50 σHL=50和 σ H H = 50 σ_{HH}=50 σHH=50。我们采用Adam优化器,动量参数为 β 1 = 0.9 β_1=0.9 β1=0.9, β 2 = 0.99 β_2=0.99 β2=0.99,初始学习率为1.0×10−4。我们的网络使用单个NVIDIA GeForce RTX 3090训练了200多个epoch。
3.2 实验结果
为了评估我们的WIA-LD2ND的去噪效果,我们对各种去噪方法进行了比较实验。比较包括BM3D[3]等传统方法,DIP[26]、Noise2Sim[23]、Blind2Unblind[28]、Neighbor2Neighbor[10]和ZS-N2N[20]等自监督方法,以及CycleGAN[32]和CUT[24]等弱监督方法。我们使用两种广泛采用的指标,即峰值信噪比(PSNR)和结构相似性指数度量(SSIM)来评估性能。
表1显示,我们的WIA-LD2ND仅使用NDCT图像,就可以在2016年5月和2020年5月的数据集上取得良好的性能。与最新的最先进的自监督和弱监督方法相比,我们的WIA-LD2ND实现了显著的性能改进。
图4显示了重建结果,图片左下角的子图显示了噪声功率谱(NPS),其中蓝色表示它更接近正常剂量CT。如图所示,我们的WIA-LD2ND获得了最佳结果,重建了最详细的信息,并显示了最蓝的NPS。相反,BM3D和DIP的结果被过度平滑,并受到结构化伪影的影响。此外,其他基于深度学习的方法倾向于积极地去除噪声。我们的WIA-LD2ND优先考虑保留信息细节。
消融研究。为了评估我们提出的模块(包括WIA和FAM)的有效性,我们在Mayo-2016[21]和Mayo-2020[202]进行了消融实验。结果如表2所示。 W I A ∗ WIA^* WIA∗表示直接向NDCT添加噪声,而 F A M ∗ FAM^* FAM∗涉及直接计算高频分量特征的MSE损失。我们的设计比它们的变体具有更好的性能。它表明,WIA和FAM都设计良好,有助于提高性能。补充材料中提供了更多关于额外超参数和噪声参数的消融研究。与基线相比,WIA-LD2ND的参数增加了2.46M。考虑到在没有任何额外推理时间的情况下,与基线模型相比性能有了显著提高,培训成本的轻微增加是可以接受的。
4 Discussion and Conclusion
本文从一个新的角度分析了LDCT去噪任务,并提出了一种称为WIA-LD2ND的自监督方法。该方法仅利用NDCT图像,并结合了两个新模块:基于小波的图像对齐(WIA)通过破坏一些高频分量来对齐NDCT和LDCT,以及频率感知多尺度损失(FAM),它增强了重建网络捕获高频分量和详细信息的能力,从而提高了去噪性能。大量的实验结果证明了我们设计的卓越性能和有效性。值得注意的是,与训练期间的基线相比,WIA-LD2ND将参数数量增加了2.46M,而不需要额外的推理时间。从频率角度探索LDCT去噪是未来研究的一个有前景的方向。