基于深度学习的MRI、CT和PET合成:回顾与分析

目录

1 引言

2 背景

2.1 医学影像转换中的网络架构背景

2.1.1 U-Nets

2.1.2 生成对抗网络

2.1.3.视觉Transformers

2.1.4 去噪扩散概率模型

2.2医学成像中图像合成的背景

3 基于深度学习的医学影像合成综述

3.1伪CT

3.1.1基于输入域的模型设计

3.1.2 基于网络体系结构的模型设计

3.2 合成MR

3.2.1.基于输入域的模型设计

3.2.2 基于网络体系结构的模型设计

3.3 合成PET

3.3.1基于输入域的模型设计

摘要 医学影像合成是临床决策研究的一个关键领域,旨在克服获取多种图像模态所面临的挑战,以实现准确的临床工作流程。这种方法有利于从最常见的医学影像对比中的给定源模态估计所需模态的图像,例如计算机断层扫描(CT)、磁共振成像(MRI)和正电子发射断层扫描(PET)。然而,由于复杂且非线性的域映射,两种图像模态之间的转换存在困难。与传统图像合成方法相比,基于深度学习的生成建模在合成图像对比应用中表现出优越的性能。本综述全面回顾了2018年至2023年期间基于深度学习的医学影像转换在伪CT(pseudo-CT)、合成MR(synthetic MR)和合成PET(synthetic PET)方面的研究。研究概述了医学成像中的合成对比以及最常用的医学影像合成深度学习网络,并对每种合成方法进行了详细分析,重点关注它们基于输入域和网络架构的多样化模型设计。此外,研究还分析了从传统CNN到最近的Transformer和Diffusion模型等新颖网络架构。该分析包括比较损失函数、可用数据集和解剖区域,以及图像质量评估和其他下游任务中的性能。最后,研究讨论了文献中存在的挑战,并提出了可能的未来方向。我们希望本综述所提供的见解将为医学影像合成领域的研究人员提供宝贵的路线图。

关键词:医学影像合成;生成深度学习模型;伪CT;合成MR;合成PET

1 引言

医学成像在临床诊断和治疗监测中发挥着关键作用,因为它能够为我们提供关于人体的特定信息。常用的成像方式包括磁共振成像(MRI)、计算机断层扫描(CT)和正电子发射断层扫描(PET),每种方式都有其独特的优势,能够揭示人体的结构、功能和代谢信息,从而辅助医生做出全面的临床决策。然而,像PET和CT这样的成像方式,虽然功能强大,但也伴随着辐射暴露的风险,特别是对于儿童患者来说,这种风险更为显著(Armanious等人,2020)。此外,获取全面的多模态图像不仅成本高昂,而且长时间的扫描还可能引入图像伪影,影响诊断的准确性(Zhan等人,2021)。因此,在实际应用中,例如,仅使用MRI进行放射治疗计划中,以更安全的方式获取精确的图像是具有挑战性的。

医学影像合成技术的出现,为解决这一问题提供了一条新的途径。它能够将一种成像方式的图像转换成另一种成像方式的图像,从而实现了不同成像方式之间的互补和融合。这种技术不仅可以最大限度地利用已获取的图像资源,还可以减少扫描时间和操作成本(如减少放射性示踪剂的使用),提高医疗服务的效率和安全性(Wang等人,2021b)。因此,医学影像合成技术在临床应用中受到了广泛的关注和应用。它不仅可以用于仅MRI的放射治疗计划、PET/MRI扫描等场景,还可以辅助进行图像分割和图像超分辨率处理等工作,为医生提供更加全面、准确的诊断信息(Armanious等人,2020)。

在医学影像合成领域,不同成像模态之间的映射是一个极具挑战性的任务,这主要归咎于数据的高维复杂性、成像方式之间的非线性差异,以及该问题本身的病态特性(Nie等人,2018)。传统上,医学影像合成最常用的方法是依赖于训练有素的专业人员所设计的手工特征。然而,这些方法在捕捉复杂图像细节方面存在局限,进而影响了合成任务的效果。因此,传统方法的应用场景较为有限,其可靠性和泛化能力也受到了制约(Bahrami等人,2020)。

近年来,深度学习在医学影像合成领域取得了显著突破,其通过构建图像模态间复杂的非线性关系模型,极大地提升了合成效果(Wang等人,2021)。这充分证明了基于深度学习的数据驱动方法能够精准模拟跨成像模态的特定领域特征,并合成多模态图像。此外,这些基于深度学习的方法还具备强大的迁移学习能力,能够将从某一特定任务中获得的知识应用到相关任务中,通过微小的调整即可提升任务性能(Spadea等人,2019)。这些优势极大地推动了医学影像合成在临床实践中的应用,显著提高了其性能。

动机和贡献

近年来,随着先进深度学习框架的迅猛发展,医学影像合成领域取得了令人瞩目的成果。这些方法实现了不同成像模态之间的精准转换,并合成了具有临床价值的图像(Lenkowicz等人,2022)。受该领域发展的启发,本文全面探讨了基于深度学习的方法在跨模态医学影像合成中的应用,并提供了文献的参考和分析。图1简要展示了文献中基于深度学习的医学影像合成网络的发展时间线。本综述的主要贡献如下:

1.本综述全面回顾了跨模态医学影像合成方法,分析了网络结构、损失函数、性能,并概述了数据可用性。

2.本综述进一步识别了当前方法中的挑战和限制,并讨论了医学影像合成的未来可能发展方向。

图1 文献中用于医学影像合成和生成的深度学习网络的简要年表

搜索条件

研究使用 Scopus 和 PubMed 数据库进行文献搜索,以查找从2018年至2023年7月发表的相关文章,搜索词为(“synth *” OR “pseudo” OR “translat *”)AND “deep learning” AND(“medical imag *” OR “CT” OR “MRI” OR “MR” OR “PET” OR “low dose” OR “low count” OR “low field”),在标题、摘要或关键字中进行搜索。还使用 Google Scholar 识别可能的遗漏,并排除综述文章。首先,筛选了标题和摘要,考虑了包括同行评审期刊和会议论文等纳入标准,并排除与图像超分辨率和重建等不相关的主题。经过全文审阅和交叉索引,共包括173篇文章。图2说明了文献综述搜索流程中所遵循的方法过程。

图2 文献检索流程中方法论过程的概述

尽管已有几篇关于深度学习在医学影像合成中应用的文献综述(Wang等人,2020;Fard等人,2022),但本综述在内容和深度上均展现出独特且更为全面的特点。本文不仅深入剖析了模型性能,并对比了不同数据集的表现,还特别强调了最近在Diffusion和Transformer相关模型方面的最新进展,这在以往综述中较为少见。相比之下,如Yi等人(2019)和Skandarani等人(2023)的综述主要聚焦于生成对抗网络(GAN)和U-Net模型。本综述具有更广阔的视野,能够详尽地比较多种合成任务,从而为读者提供对基于深度学习的架构及其效率的全面理解。此外,本文还特别关注了那些在前人研究中被忽视的数据集,并通过详细的比较分析,揭示了不同网络架构在各类合成任务中的表现差异,这一点在当前许多研究中常被忽略。最后,本综述不仅识别了该领域的核心挑战,还系统地整理了现有文献中提出的解决方案,为未来的研究和应用提供了宝贵的参考。

论文结构

本文的结构概览如图3所示。第二节概述了医学影像合成中的合成图像对比度和基于深度学习的网络。第三节详细回顾了多种基于深度学习的医学影像合成方法。第四节则深入分析了网络架构及其在图像合成中的应用,包括利用不同损失函数和模型训练技术。第五节和第六节总结了文献中采用的其他数据集和性能评估方法,同时详细阐述了各种评估方法和指标的具体应用。最后,第七节探讨了所综述文献面临的挑战以及可能的未来研究方向,第八节则是对全文的总结。

图3 论文结构概述

2 背景

2.1 医学影像转换中的网络架构背景

在医学影像合成的早期阶段,自动编码(Autoencoders)和全卷积网络(FCNs)是首选架构,这一点在Nie等人(2016)和Xiang等人(2017)的研究中得到了验证。随着该领域的不断发展,更高级的架构,如U-Net和生成对抗网络(GANs),开始崭露头角,正如Nie等人(2017)等研究所指出的那样。近年来,前沿模型,特别是基于视觉的Transformer和Diffusion架构,体现了下一波图像生成网络。正如Khader等人(2023)和Kazerouni等人(2022)所强调的那样,这一发展历程展现了从基础的基于自动编码器的设计到更复杂的基于Diffusion的模型的进步。对当代医学影像合成文献的全面回顾表明,U-Net、GANs、Transformer和基于Diffusion的架构在该领域占据主导地位。因此,本综述的后续部分将详细阐述这些主要的模型架构。

本文采用以下符号约定:在生成对抗网络(GAN)架构中,生成器网络用表示,而判别器网络用表示。对于两种不同模态之间的图像到图像的转换,将源模态指定为,目标模态指定为。符号保留用于表示随机低维噪声向量。

2.1.1 U-Nets

Ronneberger等人(2015)最初提出了U-Net用于图像分割,它包含一个编码器(收缩路径)、一个瓶颈层和一个解码器(扩展路径),共同构成了一个U形结构。编码器和解码器之间的对称结构允许提取和连接特征图。同时,编码特征通过跳跃连接和瓶颈层传输到解码器。U-Net是一种高效的卷积神经网络(CNN)架构,专为图像翻译设计,旨在捕捉图像的高级和低级特征。

如图4所示,U-Net编码器架构包括一系列卷积层,后面跟着整流线性单元(ReLU)激活函数(Spadea等人,2019)。编码器模块提取特征,这些特征通过最大池化操作进行下采样,同时增加特征通道以生成空间收缩的特征图。这些特征随后通过包含级联卷积层的瓶颈层,并发送到解码器。解码器块由上卷积组成,这些上卷积连接来自编码器的高分辨率特征(Bahrami等人,2020)。在基于U-Net的图像到图像翻译中,最常用的损失函数包括基于强度的逐像素损失函数。在实际应用中,损失函数是通过使用平均绝对误差(MAE)和均方误差(MSE)来计算的,即通过计算合成图像和真实图像强度值之间的绝对差异的平均值(Sikka等人,2018)。

图4 基于U-Net的MRI-CT合成框架

2.1.2 生成对抗网络

生成对抗网络(GANs)包含两个相互竞争的网络——通过基于极小极大方法优化的生成器和判别器(Li等人,2021b)。生成器以为输入,这些输入来自均匀分布或高斯分布,并学习将从低维空间映射到高维真实空间。判别器接收来自生成器的生成假样本和训练集中的真实样本。判别器的任务是将生成的数据分类为假或真。同时,生成器的目标是创建尽可能与真实样本相似的数据,从而使判别器难以区分假数据和真实数据。通过这种方式,在给定的目标函数(如公式(1))下,生成器和判别器在训练过程中通过优化相同的目标函数来提升彼此的性能(Li等人,2021b)。

其中,表示生成器和判别器的损失函数。优化过程发生在判别器最大化而生成器最小化同一个目标函数的情况下。E_{x} 代表在x上的期望值,而E_{z} 代表对生成器网络输入z的期望值。简而言之,这个等式描述了在GAN中,生成器和判别器如何通过相互竞争来优化它们的目标函数,其中判别器试图区分真实和生成的样本,而生成器则努力生成尽可能逼真的样本以欺骗判别器。

在原始GAN架构的基础上,已经开发了各种GAN网络用于特定的生成任务。通过将GAN与CNN相结合,创建了深度卷积GAN(DCGAN),使其架构更适合于图像生成(Radford等人,2015)。条件GAN(cGAN)在医学影像合成中常用,它通过向目标函数添加约束(这些约束可以是另一种模式的标记数据,甚至是图像)来增强模型的可控性(Li等人,2021b)。图5(A)展示了使用cGAN从MRI数据合成CT图像的概览。在图像生成过程中,MRI作为GAN的条件输入,然后使用生成器生成CT图像。判别器接收生成的CT图像和真实的CT图像,目的是区分它们之间的真假。

CycleGAN使用两个生成器和判别器模型,在没有成对图像的情况下在两个域(A和B)之间进行图像转换(Zhu等人,2017)。和分别执行从B到A和从A到B的图像转换,其中x属于域A,y属于域B。CycleGAN的目标函数包括常规的GAN生成器损失和,以及一个额外的循环一致性损失,该损失计算真实数据和循环数据之间的逐像素损失或L1损失,如下所示((2)和(3)):

CycleGAN的关键特性是其循环一致性,它通过逆映射将两个cGAN连接起来。一个cGAN接收一张输入图像作为条件图像,并生成一张新图像,这张新图像随后作为第二个cGAN网络的条件变量。图5(B)展示了基于CycleGAN从MRI数据合成CT图像的概览。生成器GCT接收一张真实的MRI图像作为条件输入,并生成一张CT图像。然后,将生成的CT图像输入给生成器GMR,以重建原始的MRI图像。判别器DMR区分来自循环生成的真实MRI图像和重建的MRI图像,而判别器DCT则区分生成的CT图像和真实的CT图像。

图5 基于cGAN和CycleGAN的MRI到CT合成的框架

2.1.3.视觉Transformers

Transformer架构最初由Vaswani等人(2017)提出,旨在用于自然语言处理中的序列推理任务。Transformer与其他序列数据处理架构的不同之处在于其卓越的性能,这得益于其擅长的自注意力机制,该机制能够捕获数据内部的长距离关系。在计算机视觉领域,基于Transformer的架构因其能够把握图像的全局上下文信息而备受关注。在视觉领域最突出的模型是Vision Transformers(ViT),它采用了标准Transformer网络的基础结构。自此之后,ViT已被广泛应用于大多数基于视觉的应用中,如目标检测、图像分类和图像分割。最近,这些基于视觉Transformer的网络架构在医学成像领域也得到了广泛使用(Shamshad等人,2022)。

在ViT(Vision Transformers)中,图像被划分为一系列不重叠的图像块(patches)。这些图像块首先通过编码器进行处理,随后是特定于任务的解码器模块。至关重要的是,与图像块一起,相关的位置信息也被整合到编码器块中。该编码器块的结构包括多头自注意力(MHSA)、归一化以及多层感知机(MLP)层,如图6所示。通过MHSA层,为嵌入的图像标记(tokens)制定注意力图,从而使网络能够选择性地优先处理图像中最显著的区域。

图6 ViT架构概述

2.1.4 去噪扩散概率模型

去噪扩散概率模型(Denoising Diffusion Probabilistic Models,简称DDPMs),最初由Ho等人(2020)提出,是一种新颖的方法,已展现出卓越的生成过程建模能力。如图7所示,DDPMs是一个参数化的马尔可夫链,它通过有限的时间步T内的渐进过程,训练实现从纯噪声到实际数据的映射。

图7 基于扩散的MRI合成架构

去噪学习过程主要包括前向过程和反向过程两个环节。在前向过程(方程(4))中,通过在足够大的时间步长T的序列中向输入图像x0添加随机高斯噪声,从等方性高斯分布中获得噪声图像xT。这形成了一个马尔可夫链,其中当前步骤xt的平均分布是根据前一步骤的样本以及如方程(5)所示的噪声方差计划来确定的。

其中,扩散模型的每个反向步骤通过神经网络

进行映射,并通过优化简化对数似然的变分下界进行训练。

图7 基于Diffusion模型的MRI合成综述

其中,在每个反向步骤中,使用公式(6)中的和样本来推导出均值分布。

尽管基于扩散的医学影像合成已经展示了有前景的结果,但其有效性受到基于似然模型的图像采样计算负担的阻碍,这需要大量的计算资源来进行建模。许多最近的工作都集中在提高其计算效率上,例如Rombach等人(2021)的研究。

2.2医学成像中图像合成的背景

医学影像合成为各种病理条件的逼真模拟提供了一种有效的方法。这为避免高辐射暴露的重复扫描提供了强有力的解决方案,尤其是对于儿科患者,因为这类扫描会增加脑癌和白血病的风险(Boroojeni等人,2022)。在临床病理学中,医学影像合成的广泛应用在癌症患者仅MRI放射治疗的规划中尤为突出(Fu等人,2020;Touati等人,2021;Mendes等人,2023)。此外,它还在通过数据增强来提升计算机辅助临床诊断系统中发挥着至关重要的作用,因为这些系统严重依赖于充足的训练数据的可用性(Salem等人,2019)。此外,这为解决从正常人群中获取数据的问题提供了解决方案,由于可获得的病理状况患者的医学影像占主导地位,因此从正常人群中获取数据具有挑战性。此外,医学影像合成在获取与高风险场景相关的成像数据方面也具有巨大价值,如对比增强MRI,这对于肝肿瘤患者至关重要,并可用于研究其对非对比图像诊断准确性的影响(Zhao等人,2020a)。

医学影像合成方法涵盖了一系列模式,包括伪CT或合成CT、PET和MR。这些方法可以根据其应用进行分类,即不同模式之间的图像转换或同一模式内两种不同对比度之间的转换。图8展示了合成MR、PET和CT模式的示例,并强调了它们的基本特征。

图8 基于深度学习的医学影像合成中图像模态间非线性映射的综述

MR本质上是一种多对比度成像模式,MRI数据通常包含具有互补信息的多个成像对比度(Zhao等人,2021)。然而,由于扫描时间有限和MRI成本增加,获取多个图像对比度并不总是可能的。此外,获取多个对比度容易产生随机噪声导致的非预期图像伪影,从而导致图像质量较差(Chen等人,2022)。因此,从其他成功获得的对比度中合成缺失或损坏的MRI对比度对于可靠的临床诊断和辅助全面的图像分析任务(如图像配准和分割)至关重要(Zhan等人,2022)。低场(LF)MRI也提供了一种显著的解决方案,通过提供更经济的设备和降低医学成像成本。然而,这些低场MR扫描产生的图像信噪比更低,因为磁场强度降低了。因此,从低场MR图像中合成高场(HF)MR图像对于生成具有更高空间分辨率和增强对比度的图像具有重要价值。

MRI在放射治疗计划制定中起着重要作用(Fu等人,2020)。然而,标准的MRI引导放射治疗(MRgRT)在计算剂量时仍然需要CT图像,这可能会因为扫描之间的差异而受到限制(Boni等人,2021)。为了克服这一限制,可以从MRI生成合成(伪)CT来描绘骨骼和肌肉边界(Armanious等人,2019)。对于PET/MR检查,也可以从MRI合成CT图像进行衰减校正(AC)(Baran等人,2018;Pozaruk等人,2020)。医学影像合成能够映射解剖、功能和代谢信息,如空间分辨率、像素强度和纹理特征(Chen等人,2018b)。

合成PET在诊断退行性疾病(如阿尔茨海默病)方面具有潜在用途,其中MRI观察到的灰质萎缩、脑室扩大以及PET中的氟脱氧葡萄糖(FDG)在大脑的分布是关键的鉴别诊断因素(Sudarshan等人,2021)。合成PET还有可能利用MRI衍生的脑血流(CBF)图辅助诊断脑血管疾病(Hussein等人,2022),并检测各种解剖结构和病变的异常。此外,它还有助于生成多种数据,以开发和评估PET重建算法(Rajagopal等人,2023)。进一步地,低剂量(LD)PET图像比高剂量图像表现出更复杂的空间变化和统计噪声,这使得它们在诊断上的可靠性较低。因此,全剂量(FD)PET合成过程旨在从低剂量图像中恢复缺失的高频细节,以实现更优越的图像质量(Sikka等人,2021;Pain等人,2022)。

3 基于深度学习的医学影像合成综述

3.1伪CT

基于深度学习的CT合成技术在捕捉CT与源模式之间高度复杂、潜在的非线性映射以生成逼真的合成图像方面取得了显著成果(Kläser等人,2018;Armanious等人,2019;Qian等人,2020;Shi等人,2021;Koh等人,2022)。这些方法通过超越传统的基于图谱和基于体素的CT合成方法(Xiang等人,2018),进一步证明了其在临床和非临床应用中的适用性。特别是,卷积神经网络(CNN)和生成对抗网络(GAN)的方法在从源图像模式准确估计CT亨氏单位(HU)方面显示出巨大潜力(Xiang等人,2018;Emami等人,2018)。此外,新型Transformer和基于扩散的网络也凭借高保真度的合成图像展现了卓越的性能(Li等人,2023a,b,c;Lyu和Wang,2022)。本节将综述基于深度学习的CT合成方法。

3.1.1基于输入域的模型设计

保留3D信息

三维深度网络在编码MRI与CT之间复杂的映射关系以获得更准确的亨氏单位(HU)预测方面也表现出了更好的结果。Fu等人(2019)通过首次展示端到端的三维卷积神经网络(CNN)应用,将骨盆图像的MRI转换为CT,证明了这一点。Zimmermann等人(2022)提出了一种三维U-Net方法,该方法利用多个输入的MRI序列来生成合成的CT图像。此外,为了解决二维网络中图像切片之间的不连续性,广泛采用了基于三维条件生成对抗网络(cGAN)的方法(Kläser等人,2018;Lei等人,2019b;Liu等人,2020b;Oulbacha和Kadoury,2020;Koh等人,2022;Wang等人,2022a)。

由于处理体积数据的深度网络结构计算成本较高,一些研究(Li等人,2018;Spadea等人,2019;Hsu等人,2022;Sun等人,2022a)采用了二维图像与创新方法相结合的方式来保留图像的三维结构信息。Li等人(2018)提出了一种三正交二维全卷积神经网络(FCN),以在合成的CT图像中保留结构信息。该模型架构包括一个三正交网络,其中包含三个用于轴向、冠状和矢状图像平面的二维并行CNN,每个平面并行训练以使用生成图像的线性组合来合成一个CT图像。Spadea等人(2019)和Maspero等人(2020)也采用了三正交模型的概念,但使用了三个独立的U-Net。为了减轻三维网络中的高计算要求,Oulbacha和Kadoury(2020)提出了一种基于三维体积的训练方法,该方法包括将四个相邻的二维切片堆叠在一起,以捕获附近的三维特征,而无需依赖计算量大的三维卷积。

处理多对比域数据

由于患者解剖结构和成像协议(Qi 等人,2020;Klages 等人,2019;Touati 等人,2021;Ang 等人,2022)的差异性,从头颈部MRI图像预测CT图像具有挑战性。因此,识别诸如轮廓这样的高级特征并在模型中给予更多权重至关重要。Touati 等人(2021)提出了一种新颖的特征不变性方法,用于匹配合成和真实头颈部区域CT图像的高频成分中的共同结构细节。该方法通过识别包括轮廓在内的高级特征,在选定区域内生成具有相似高频特征分布的图像。这是通过利用量化强度分布直方图和边缘属性的CNN深度特征空间编码来实现的。图9展示了在HU空间中该方法的对比效果。胸部图像的合成也因其肺部在电子密度方面的异质性以及建模病变的困难性而具有挑战性(Lenkowicz 等人,2022)。他们采用了一种混合方法,将整体密度值分配给大体肿瘤体积,成功证明了合成胸部CT成像能够准确复制复杂肺部区域的精细细节。

图9 第一列展示了源MR图像,第二列展示了真实的CT图像。其他列则是使用不同深度学习网络合成的CT图像,包括针对头颈部成像数据集的特征不变性cGAN、cGAN和CycleGAN。与其他在视觉上可靠性较低的深度模型相比,所提出的特征cGAN能够更准确地与真实CT图像相匹配。

Fu 等人(2020)展示了基于深度学习的CT合成在肝脏放射治疗计划中的首次应用。Cusumano 等人(2020)和Lapaeva 等人(2022)也提出了利用合成CT进行骨盆和腹部区域的成像。与其他身体部位相比,儿童CT扫描中广泛使用了头部CT成像来识别儿童患者的颅骨异常。儿童患者的颅骨骨骼相较于成人更薄,且骨骼与软组织之间的对比度更小,这使得合成任务更具挑战性(Boroojeni 等人,2022)。然而,大多数基于深度学习的从MRI到CT的成人合成方法并未开发用于识别诸如骨折和缝合线等小骨结构。Boroojeni 等人(2022)提出了一种用于儿童颅骨骨成像的新型合成CT方法,该方法采用基于补丁的残差UNet。他们使用了两个基于补丁的网络:一个用于全头(NetWH),另一个用于骨骼或空气(NetBA)。通过将NetWH和NetBA合成的CT图像相结合,获得了具有更高空间分辨率的完整伪CT图像。

捕捉有挑战性的身体区域的特征

在MRI与CT图像映射的上下文中,许多基于GAN的CT合成方法依赖于将CT图像与单一MR序列进行映射(Hiasa等人,2018;Armanious等人,2019;Dong等人,2019;Ge等人,2019)。然而,这些方法没有解决MR对比度和协议的可变性,这是深度学习网络泛化能力的一个常见问题。增强型CycleGAN(AugCycleGAN)是一种创新方法,它通过提高CycleGAN使用多中心数据的泛化能力来解决这一局限性(Almahairi等人,2018)。基于这一概念,Boni等人(2021)提出了一种增强的CycleGAN,旨在将多张MR图像转换为单张CT图像。在AugCycleGAN框架中,生成器通过一个潜在空间进行增强,该空间作为缺失细节的额外输入空间,而无需使用单个输入来学习→ 映射。因此,MR到CT的映射已经发展成为一种无需特定MR对比度的CT合成方法。

在最近的一项研究中,Zhou等人(2023)提出了一种基于级联的多模态同步生成网络,旨在利用单一MRI模态进行多项合成任务。这种创新的基于cGAN的方法在生成器中结合了共享编码器和多分支解码器,从而能够从单一T1w MRI中合成多模态MRI图像。随后,利用合成的MRI和输入MRI生成的复合图像来生成相应的CT图像。值得注意的是,该方法通过巧妙地利用中间生成的MRI图像,提供了对制作逼真CT图像至关重要的增强信息。

处理有限的数据集

Qian等人(2020)通过在判别器模型中添加一个分类器,引入了一种新的GAN架构,从而提高了在有限样本训练下网络的稳定性和准确性。Abu-Srhan等人(2021)提出了利用非医疗领域预训练模型的知识迁移来解决有限配对数据集的问题。他们选择了一个表现良好的非医疗领域预训练模型作为所提网络的基础,然后将其迁移至同时利用配对和非配对数据进行模型学习。Li等人(2021a)和王等人(2022a)也强调了使用预训练的CycleGAN进行迁移学习,以提高模型对不同数据集和模态的泛化能力。Li等人(2020)提出了一种基于较浅UNet的生成器,该生成器使用图像块,并且块与块之间有50%的重叠,而不是使用整个图像来增强数据。他们进一步简化了U-Net模型,以便在较少图像数据的情况下进行训练。

3.1.2 基于网络体系结构的模型设计

空间转换与注意力机制

最近的大多数医学影像翻译方法都集中在翻译整个图像的有效性上,而不是特定的感兴趣区域(Chen et al., 2018a; Florkow et al., 2020; Kazemifar et al., 2019; Ranjan et al., 2022; Wang et al., 2022a)。然而,这可能导致在局部区域,如变形、模糊或纹理不纯的区域,图像质量较差。受人类注意力机制的启发,Emami等人(2020a)提出了一种基于注意力的生成对抗网络(GAN)方法,该方法在计算判别器内的空间注意力时,帮助生成器聚焦于真实与合成CT图像之间差异显著的区域。然而,由于梯度饱和问题,训练一个注意力门控判别器具有挑战性。Kearney等人(2020)提出了一种替代方案,即使用变分自编码器在判别器中引入注意力机制,同时使其与生成器协同进步。Yang等人(2020)在生成器中引入了自注意力块,用于对广泛感兴趣的空间区域进行非局部关系建模。Chen等人(2021)提出了一种新颖的解决方案,即目标感知生成对抗网络(Target Aware Generative Adversarial Network),该网络包含一个具有两个编码器-解码器块的生成器。其中一个流负责翻译整个图像,而另一个流则专注于目标区域。

Dovletov等人(2022)提出了一种基于Grad-CAM的引导注意力方法用于图像翻译。Grad-CAM是一种基于梯度的可视化方法,能够产生给定图像的可解释性定位图。该方法利用从真实图像和合成图像中,通过预训练的CT和MR分类器获得的CT类别特异性定位图之间的均方误差(MSE),来指导基于U-Net的生成器模型,从而使翻译网络能够专注于特定区域。该方法进一步通过一种基于双Grad-CAM的方法进行了扩展,该方法通过使用预训练的分类器指导两次,更加专注于骨骼结构(Dovletov等人,2023)。

映射多尺度特征

在合成高质量图像时,保留合成CT图像中的高频细节是一个主要挑战。标准的损失函数,包括L1损失,在低频图像内容方面表现良好,但对于高频细节则不然(Shi et al., 2021)。Armanious等人(2020)和Ang等人(2022)提出了一种新颖的方法,通过独特地将对抗性框架与非对抗性损失相结合,来捕获图像目标模态中的高频和低频成分。提出的生成器模型在使用对抗性判别器进行像素级和感知惩罚的同时,还采用了一个预训练的特征提取器,以确保翻译后的图像在纹理、风格和内容上与目标图像相匹配(Armanious et al., 2020)。Shi等人(2021)直接使用了频率监督网络,在建模过程中保留高频信息。该方法包括一个用于合成CT生成的基础网络和一个频率监督合成网络作为精炼模块,以提高生成CT中高频特征的质量。Cao等人(2021)提出了一种基于U-Net的方法,通过利用U-Net多尺度特征融合的优势来增强图像的语义信息,从而保留图像的低级特征。为了在CycleGANs中最大化源图像和目标图像之间的互信息,Park等人(2020)提出了一个对比无监督翻译(CUT)网络,该网络通过学习跨域相似性函数来实现。在CUT架构的基础上,Jiangtao等人(2021)开发了一种新颖的深度网络,该网络受Dense-CycleGAN网络(Lei et al., 2019b)的启发,用密集块替换了生成器的残差块。

三维空间信息建模

Lei等人(2019b)和刘等人(2020b)提出了一种基于密集CycleGAN的方法,该方法采用块到块的翻译方式,以较少的内存需求利用3D空间信息。此外,深度神经网络需要大型训练数据集和大量参数的学习才能获得高质量的合成图像。曾和郑(2019)通过提出一个混合GAN网络来解决这个问题,该网络包含一个3D生成器和两个2D判别器网络。其中,一个具有全连接CNN的3D生成器学习空间信息并解决图像切片之间的不连续性,而2D判别器则减轻了训练网络时的内存负担。

基于Transformer和Diffusion的模型

由于Vision Transformer和基于Diffusion的方法具有生成高保真图像的潜力,因此在最近的文献中已被用于CT合成(Vaswani et al., 2017; Ho et al., 2020)。为了从MR图像中捕获多级信息并合成具有改进强度和结构细节的CT图像,引入了具有CNN和Transformer的混合架构结构(Li et al., 2023c)。Li等人(2023b)使用了一种自适应多序列融合网络来建模不同MRI对比度之间的体素和上下文相关性,这包括将卷积与交叉注意力模块相结合,以利用多个图像对比度中的局部和上下文信息。Li等人(2023c)和Zhao等人(2023)还证明,结合了CNN和残差Transformer的混合合成方法能够捕获MR和CT图像之间的局部纹理细节和全局相关性。Lyu和Wang(2022)提出了一种基于MR图像的条件去噪扩散概率模型和得分匹配模型,以生成更逼真的CT图像。

Li等人(2023a)还提出了一种类似的基于MRI的条件Diffusion方法,该方法通过将稀疏视角CT的细化零空间内容(Schwab et al., 2019; Wang et al., 2022)插入到反向去噪过程中。通过操纵CT测量中的去噪步骤,该方法在Diffusion模型的逆过程中提供了精确的指导。此外,Pan等人(2023a)在基于MRI图像的3D DDPM去噪过程中集成了基于移位窗口变换器(Swin Transformer)(Liu et al., 2021b)的编码器-解码器。与基于GAN的方法相比,该方法在去噪步骤中遵循的顺序过程中捕获高维数据的复杂结构细节方面取得了显著的性能。

伪CT的总结

表1展示了按特征属性分类的基于深度学习的伪CT方法的概述,总结了每个类别中最相关的研究,并强调了它们的创新点、网络类型、损失函数、输入模式和数据区域。

表1 基于深度学习的伪CT概述

3.2 合成MR

采用深度学习技术的多模态磁共振(MR)图像合成已显示出令人鼓舞的结果(Dai等人,2020;Yang等人,2021)。基于当前最先进的MR模态间映射方法,MR合成可以分为基于单模态和多模态的深度学习策略(Chartsias等人,2018;Dar等人,2019;Li等人,2019b;Dai等人,2020;Zhan等人,2021;Yurt等人,2022;Zhang等人,2022c;Kawahara等人,2023)。大多数MR对比度合成技术依赖于生成对抗网络(GANs)来实现MR对比度之间的图像到图像的转换,这些技术使用基于二维U-Net的生成器和PatchGAN判别器,但也有一些例外(Chartsias等人,2018;Salem等人,2019;Osman和Tamam,2022;Liu等人,2021c;Hu等人,2022),它们采用了基于U-Net和变分自编码器(VAE)的方法。此外,从最近的文献来看,人们对基于Transformer和Diffusion的MRI合成方法的兴趣日益浓厚(Dalmaz等人,2022;Zhang等人,2022a;Özbey等人,2022;Zhu等人,2023)。

3.2.1.基于输入域的模型设计

保留3D信息

与传统的基于对抗性的MRI合成方法不同,Uzunova等人(2020)提出了一种基于3D多尺度块的方法,用于生成高分辨率MRI对比度,该方法首先利用一个低分辨率的生成对抗网络(GAN),然后在每个分辨率级别上采用一系列高分辨率的GAN。Mao等人(2022)引入了一种新技术,从高频细节中提取深层语义信息,然后将这些信息与解码器网络内的特征图相结合。除了在网络中进行特征层面的增强外,Zhao等人(2021)还提出了一种MRI-Trans-GAN,该模型在矢状轴和冠状轴上采用较大的3D块,在垂直轴上采用较小的块,以减少内存使用并保持相邻切片之间的关系。

处理多对比域数据

大多数MR(磁共振)合成是在两种对比度下进行的,例如从T2加权(T2w)MRI生成T1加权(T1w)MRI(Dar等人,2019;Yu等人,2019;Bui等人,2020;Uzunova等人,2020;Kong等人,2021;Zhao等人,2021)。然而,为了利用从多模态MRI获取的解剖特征,MRI对比度合成中也研究了多模态图像合成。这强调了不同对比度之间的相关特性,并产生了高质量的合成结果(Chartsias等人,2018;Li等人,2019b;Zhou等人,2020a;Sharma和Hamarneh,2020)。Chartsias等人(2018)展示了一种基于模态不变潜在表示的学习方法,该方法使用编码器、潜在融合和解码器架构将所有输入模态映射到一个共享的潜在空间。融合步骤将每个模态的编码器表示组合成一个单一的融合表示,该融合表示集成了每个模态的独特特征,从而构建了一个能够容纳缺失输入模态的鲁棒模型。Zhan等人(2021)提出了一种基于潜在表示的条件生成对抗网络(cGAN),用于多模态MR合成,其生成器网络与上述类似。他们采用了一个潜在空间处理网络(LSPN),利用ResNet结合来自不同模态的特征,从而返回目标模态的潜在表示。

在提出的架构中,Zhan等人(2022)通过替换LSPN,引入了一种门合并(GM)机制来整合每个模态编码器的特征,该机制包括加法(Add)、卷积级联(Conv-cat)和级联卷积(Cat-Conv)等融合方法来组合不同模态的特征。此外,GM能够增强关键信息(如边缘或纹理),并消除模态中的不相关噪声。为了将多个图像序列映射到单个目标模态,Li等人(2019b)提出了一种基于CycleGAN的方法,将输入模态连接为多通道输入,并将目标输出模态也相对于输入模态连接为多通道。这种映射产生了一个具有两个生成器和判别器的菱形拓扑结构,称为DiamondGAN。与DiamondGAN不同,Dai等人(2020)提出了一种基于GAN的统一方法,用于单模态到多对比度的映射,该方法利用单个生成器将源图像转换为目标图像,并通过生成图像及其模态标签重建原始源图像。一个对比度调制器通过滤波器缩放和条件实例归一化来调整编码器和解码器参数,以适应不同的对比度。

处理低场MRI数据

基于深度学习的低场(LF)到高场(HF)MRI转换提供了一种更高效的解决方案,用于合成高分辨率且具有增强解剖细节的MR图像。然而,仅有少数研究提出了采用各种监督学习方法进行高场MR合成的深度学习解决方案。这些提出的解决方案利用基于深度卷积神经网络(CNN)的网络来学习低场和高场图像之间的详细映射关系(Lin等人,2019)。Lin等人(2019)、Figini等人(2020)以及Lin等人(2023)提出了一种图像质量转换(IQT)框架,通过提高图像的对比度和空间分辨率来增强低场(0.36T)MRI。这些方法利用了一个随机低场图像模拟器作为前向模型,以捕获其不确定性以及与高场图像之间的变化,并采用了各向异性U-Net来解决IQT逆问题。在最近的低场MRI研究中(Bagheri和Uludag,2023),探索了使用多对比度低场MRI图像来合成单一或多对比度高场MRI图像的方法。该研究提出了一种基于U-Net的方法,并成功应用于从0.5T MRI图像生成3T MR图像。

处理数据中的变形

Bui等人(2020)通过利用连续图像切片之间的时间信息,扩展了基于流的方法,通过为每个域添加额外的配准网络来学习切片之间的位移。然而,对于MRI合成的监督学习方法来说,成对的图像对比度受到配对数据中未对齐现象的严重影响,这可能导致合成图像内部出现位移(Li等人,2019b;Kong等人,2021)。为了解决这一主要问题,Kong等人(2021)将未对齐视为噪声标签,并将问题转化为一种带有噪声标签的方法,称为RegGAN。这种方法提供了一种标准的图像转换和配准解决方案,其中生成器与配准网络一起训练,以找到这两个任务的最优解(Bui等人,2020;Kong等人,2021)。与Bui等人(2020)的方法不同,他们训练了一个单独的配准网络(CNN),通过预测可变形矢量场来减轻图像中的未对齐噪声。然而,大多数研究的一个根本问题是它们明确考虑了MR对比度之间的相关性。为了解决这个问题,Lin等人(2022)将MRI模态表示为相对于其图谱的非线性嵌入,并学习了跨模态的变形特征。然后,利用模态特异性图谱和多模态变形进行图像合成。

3.2.2 基于网络体系结构的模型设计

映射多对比度特征

虽然多模态MRI合成具有从多个图像对比度中共享特征学习的优势,特别是在单个源模态中特征表示较弱时,但Yurt等人(2021)指出了一个重大问题,即完全忽略了图像对之间的一对一转换。当关键特征仅存在于特定输入对比度中,且这些独特细节能够准确预测目标图像时,这个问题尤为突出,从而导致多模态图像转换的性能次优。Yurt等人(2021)开发了一种多流生成对抗网络(GAN),该网络利用来自不同模态的共享和互补图像特征,以利用单模态和多模态图像合成的优势。该方法通过融合网络结合了多对多转换中的共享特征图和一对一转换中的互补特征,从而生成更高质量和更清晰的合成图像。此外,为了确保GANs中未配对图像之间独特转换的一对一映射,Grover等人(2019)引入了一种基于流的新型生成模型,该模型保证了精确的循环一致性,并在集成对抗学习的同时学习了域之间的共享潜在空间,以实现相同的最大似然。Shen等人(2021)通过在共享表示和特定于域的特征中学习跨模态的语义信息,提出了一种多对多GAN框架,以解决随机缺失数据的问题。

基于Transformer的模型

与传统的基于对抗的生成方法相比,Vision Transformers(ViT)因其在医学成像任务(如图像翻译、配准和分割)中表现出的良好性能以及建模上下文数据表示的能力而最近备受关注。Dalmaz等人(2022)引入了第一个使用基于Transformer的生成器的对抗模型,用于医学影像合成,称为残差视觉Transformer(ResViT)。他们提出了一种新颖的聚合残差Transformer(ART),该Transformer结合了Transformer和CNN模块,通过跳跃连接从输入特征中提取上下文和局部特征。在所提出的架构中,生成器遵循编码器-瓶颈-解码器路径模块,其中信息瓶颈由一系列ART块组成。这些ART块的主要功能是将低级输入特征与其上下文、局部和局部上下文特征相结合。

Yan等人(2022)和Pan等人(2022)介绍了一项最新的基于Transformer的研究,该研究使用Swin Transformer(ST)来解决Vision Transformer中较小尺寸块导致的边界伪影问题。他们提出了一种基于GAN的多模态图像翻译模型,配备ST生成器(MMTrans),而Yan等人(2022)则通过ST配准网络对其进行了扩展。ST生成器(STG)由残差ST块(RSTB)组成,每个RSTB包含用于局部和跨窗口交互学习的ST层(STL)。采用了带有STL的U形配准网络来学习可变形矢量场。通过所提出的架构,生成器能够生成与目标图像具有相同样式和内容细节的图像。误差图结果表明,MMTrans优于其他竞争方法,包括Kong等人(2021)提出的RegGAN。Li等人(2022)提出了一种基于Transformer的网络,该网络通过边缘感知预训练进行MR合成,以同时保留强度和边缘信息。Liu等人(2023)提出了一种新的基于多对比度多尺度Transformer的方法,通过采用可变长度的MRI对比度组合,并合成缺失的对比度作为输出,来开发序列到序列的MRI预测方法。

基于Diffusion的模型

基于得分的生成模型已展现出通过随机扩散技术有效采样目标分布的非凡能力。Meng等人(2022)通过引入无分类器条件的基于扩散的方法,提出了首个用于跨模态MRI合成的基于得分的生成模型。所提出的基于得分的任何MRI对比度的反向生成,在降噪过程中利用来自其他剩余对比度的指导,通过一个网络来学习跨模态得分函数。Yoon等人(2022)通过探索序列数据的时间依赖性作为条件先验,提出了首个针对MRI合成的序列感知的基于扩散的方法。这使得能够生成纵向图像并估算多帧心脏和纵向脑MRI中缺失的数据。

与扩散模型中的传统条件方法相比,Pan等人(2023b)通过使用两个相同的去噪网络,提出了一种新颖的循环引导DDPM(去噪扩散概率模型),以稳定地保留病变识别数据中的解剖细节。虽然许多用于MRI合成的基于扩散的方法利用二维网络来处理计算复杂度,但这可能导致图像切片之间的潜在体积不一致性。三维DDPM可能克服这一问题,但其计算和内存成本较高。为了克服计算开销,Zhu等人(2023)采用了潜在扩散模型(LDM),利用其低维数据表示来获得三维图像合成,并改善图像切片之间的体积一致性。他们介绍了一种使用二维主干的新型三维体积数据合成方法,通过在二维网络中使用一系列体积层来克服计算开销。Jiang等人(2023)还利用LDM进行MRI图像之间的一对多转换,以克服多模态MRI合成中DDPM的过度内存消耗。这是首项基于扩散的一对多MRI合成研究,采用自适应条件权重方法来平衡多条件指导。

条件扩散模型需要良好对齐的成对数据进行训练,这是一项具有挑战性的任务。为了解决这一限制,探索了使用无监督学习方法的条件去噪。Özbey等人(2022)提出了一种用于高保真图像合成的对抗性扩散模型(SynDiff),这是首个使用扩散模型的无监督MRI合成方法。SynDiff利用了一个具有非扩散和扩散模块的循环一致框架。与其他基于GAN的方法相比,该方法在合成图像质量和保真度方面取得了优异的结果。图10提供了使用所提出的SynDiff方法获得的结果的定性比较。此外,Wang等人(2023)提出了一种基于随机扩散模型的零样本学习无监督方法。他们利用统计特征一致性来为反向扩散过程提供条件,而不是使用来自数据域的条件指导。这提供了一种有效的方法,通过捕获源图像和目标图像模态的局部统计属性来桥接它们之间的鸿沟。

图10 使用BraTs数据集,针对(a)FLAIR→T2 和(b)T2→FLAIR 任务的结果。与其他方法相比,SynDiff 显示出更低的伪影水平和更详细的结构。

合成MR概述

表2概述了基于深度学习的合成MR方法,并按其主要特征属性进行了分类。本节概述了每个类别中最相关的研究,强调了关于网络类型、损失函数和MRI翻译的主要创新之处和细节。

表2 基于深度学习的MRI合成综述

3.3 合成PET

由于深度卷积神经网络(CNNs)和生成对抗网络(GANs)在特征提取能力和图像合成方面的卓越表现,它们已被广泛用于从MRI合成PET图像(Sikka等人,2018;Hu等人,2019;Shin等人,2020b;Hussein等人,2022;Rajagopal等人,2023;Ouyang等人,2023)。此外,基于Transformer和扩散的方法也展示出了高质量的PET图像合成能力(Shin等人,2020a;Zhang等人,2021;Xie等人,2023;Jang等人,2023)。在从低剂量(LD)图像合成全剂量(FD)PET图像的过程中,基于深度学习的方法通常侧重于采用多通道输入网络,或将每种输入模态视为处理MRI或CT伴随PET图像的新任务,从而结合功能和形态细节(Wang等人,2019;Chen等人,2019)。大多数研究集中在基于GAN的方法来估计FD PET图像(Xue等人,2021;Zhao等人,2020b;Lei等人,2019a;Kaplan和Zhu,2019;Lei等人,2020),而少数研究(Chen等人,2019;Häggström等人,2019;Lu等人,2019;Sanaat等人,2020;Luo等人,2021;Dutta等人,2022;Zeng等人,2022;Hu和Liu,2022)则探讨了基于U-Net和Transformer的网络。

3.3.1基于输入域的模型设计

保留3D信息

Sikka等人(2018)首次引入了基于全局和非线性的方法,使用3D卷积UNet模型从MRI合成PET图像,捕捉MRI和PET图像之间的全局相关性。Hu等人(2021)和林等人(2021)解决了基于3D的生成器网络在合成2D图像切片方面的准确性问题。他们提出了一种新颖的3D双向映射生成对抗网络(BMGAN),该网络学习前向映射和反向映射,以将PET图像返回到潜在空间。这种方法促进了潜在空间与PET图像之间的一致性,将详细的语义信息嵌入到高维潜在空间中,并合成了感知上相似的PET图像。

处理多频数据和投影空间数据

为了应对PET图像在频率层面上的高变异性这一复杂性,这些基于深度学习的解决方案在合成具有不同频率级别的准确PET图像方面已证明具有优势(Shin等人,2020a)。MRI和PET在纹理上的差异对合成图像的质量有着显著影响。MRI在纹理上展现出更多细节,而PET则显示出在不同频率上变化的更复杂特征。Emami等人(2020b)建议分别处理图像的不同频率级别,以在合成图像中保留更真实的特征。他们提出的频率感知U-Net(FREA-UNet)通过权衡各频率的重要性级别,并对最相关区域赋予更高权重,来独立合成低级别和高级别特征。图11展示了FREA-UNet与其他最先进的深度生成网络的合成结果比较。

图11 由于 FREA-UNet 分别合成了低频和高频尺度,因此与其他网络生成的图像相比,合成的图像具有更高的空间分辨率和更清晰的边界区域。

与利用图像空间数据生成全剂量PET扫描的其他方法不同,Sanaat等人(2020)提出了一种基于3D U-Net的PET合成方法,该方法同时适用于图像空间和投影空间。该研究的主要目的是分析在低剂量PET图像和正弦图(sinograms)中合成的PET扫描的质量。Xue等人(2021)提出了一种基于GAN的投影空间方法,并在将正弦图输入网络之前,采用了一个先验域转换操作将其转换为图像。Häggström等人(2019)也使用基于CNN的编码器-解码器网络合成了投影空间数据,用于图像合成。Chen等人(2019)和Lu等人(2019)在图像空间中提出了类似的基于2D和3D U-Net的方法。

处理多模态输入

考虑到基于多模态的PET合成的优势,Wang等人(2019)提出了一种全剂量FDG-PET方法,该方法结合了低剂量FDG-PET、T1加权MRI和弥散张量成像。由于不同的图像模态在图像位置上有所不同且贡献各异,因此引入了一种基于局部自适应的融合方法,作为在每个成像模态中应用相同滤波器并组合生成特征图的替代方案。为了融合多模态图像并进一步通过整合高级图像外观与低级细节来保留上下文信息,添加了一个单独的模块。与用于图像合成的传统CycleGAN方法相比,Zhao等人(2020b)提出了一种监督CycleGAN网络,用于FD PET合成,该网络使用了额外的监督损失。

合成PET概述

表3给出了基于深度学习的合成PET方法的概述,按其特征创新分组。该概述突出了每个类别中最相关的研究,强调了网络类型,损失函数,输入数据和区域的详细信息的主要贡献。

表3 合成PET方法概述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值