Luo L, Chen X, Tang B, et al. Pre-trained Universal Medical Image Transformer[J]. arXiv preprint arXiv:2312.07630, 2023.【代码开源】
【论文概述】
本文介绍了一种名为“预训练通用医学图像变换器(Pre-trained Universal Medical Image Transformer,简称PUMIT)”的新型算法,该算法旨在解决标记医学图像数据稀缺的问题。作者通过自监督学习方法,特别是掩码图像建模(Masked Image Modeling,MIM)和视觉标记重构,利用大量未标记的医学影像数据。本文提出了一个空间自适应卷积(Spatially Adaptive Convolution,SAC)模块,以适应输入图像的体素间距,从而有效处理各种成像方式和空间属性的医学图像。此外,作者还改进了视觉标记器,使其输出概率软标记,以提高模型的鲁棒性。整体而言,这项工作通过在55个公共医学图像数据集(包括超过900万个2D切片和48000个3D图像)上预训练通用视觉标记器和视觉变换器(ViT),在下游医学图像分类和分割任务中展示了出色的性能和标记效率。
【关键创新点总结】
- 空间自适应卷积(SAC)模块:这是一种新型的卷积方法,能够根据医学图像的体素间距自适应调整卷积参数。SAC模块使得模型能够有效处理具有不同空间属性的医学图像,特别是在处理具有高度各向异性的图像时。
- 通用视觉标记器(Universal Visual Tokenizer):这种标记器能够将医学图像转换成一系列的视觉标记,为后续的深度学习模型提供了一种更高效的信息表达方式。
- 扩展先验分布正则化(Extended Prior Distribution Regularization):这是一种改进的正则化技术,通过考虑软标记表示中的不确定性,它有助于提高模型在处理复杂医学图像时的稳定性和准确性

【1.引言部分概述】
在本文的引言部分中,作者着重强调了深度学习在医学图像分析领域的重要性,特别是在疾病诊断和治疗计划中的应用。然而,这一领域面临的主要挑战之一是高质量标记医学数据的稀缺性。为了解决这一问题,作者提出了自监督学习的方法,它可以通过设计自监督的预文本任务来从大量未标记的数据中学习表示。
引言部分还提到,尽管存在大量未标记数据,但医学图像在成像方式(例如CT、MRI、超声等)和空间属性(如2D和3D空间维度、不同的体素间距和空间形状)方面的高度异质性,使得使用统一的模型结构处理所有类型的医学图像变得非常困难。传统的模型通常设计为处理具有单一空间属性的图像。因此,大多数先前的工作只能利用具有相似空间属性的医学图像数据,这限制了预训练数据的数量和多样性。
最后,作者指出了计算机视觉领域的视觉变换器(ViT)的最新进展,这为处理具有多样空间属性的医学图像提供了一种有前景的解决方案。本文的目标是通过引入空间自适应卷积(SAC)模块和改进的视觉标记器,预训练一个能够处理广泛医学图像的通用视觉变换器,以解决在医学图像分析中标记数据稀缺的问题。
本文的主要贡献如下:
- 空间自适应卷积(SAC)模块的提出:作者开发了一种新型的SAC模块,它能够根据输入图像的体素间距自适应调整卷积参数。这种方法使得模型能够有效处理具有不同成像方式和空间属性的广泛医学图像。
- 构建通用视觉标记器和视觉变换器(ViT):利用SAC模块,作者构建了一个通用的视觉标记器和一个通用的ViT,这些模型适用于预训练并能有效处理各种医学图像。
- 概率软标记的引入:为了增强视觉标记器在掩码图像建模(MIM)中重建目标的鲁棒性,作者提出了从离散标记(VQ-VAE)到概率软标记的概念,以缓解确定性量化中的代码本崩溃问题,并通过扩展的先验分布正则化来提高学习分布的多样性和锐度。
- 大规模预训练:该模型在55个公共医学图像数据集上进行了预训练,这些数据集包含超过9百万个2D切片和超过48,000个3D图像,代表了目前已知最大、最全面和最多样化的用于预训练3D医学图像模型的数据集。
- 在下游医学图像任务中的优异性能:作者对预训练的模型在医学图像分类和分割任务上进行了微调,实验结果表明,该模型在这些任务上展现出了优越的性能和提高的标签效率。
【2.核心贡献Spatially Adaptive Convolution详细解读】:
空间自适应卷积(SAC)模块是为了解决医学图像分析中一个关键问题而设计的:即不同医学图像(如CT、MRI、超声图像)在空间分辨率和体素间距方面的显著差异。传统的卷积神经网络(CNN)在处理这些图像时可能会遇到困难,因为它们通常是针对特定类型的图像优化的,而不是为处理各种不同的空间属性设计的。
SAC模块的工作机制
SAC模块的核心思想是自适应地调整卷积操作,以适应输入图像的体素间距。这是通过以下步骤实现的:
- 体素间距的识别:SAC首先分析输入图像的体素间距。体素间距是医学图像中体素的物理尺寸,不同的成像技术(如CT、MRI)和不同的扫描设置会产生不同的体素间距。
- 调整卷积参数:根据识别的体素间距,SAC调整其卷积核的大小和步长。在具有较大体素间距的图像中,SAC可能会使用更大的卷积核来覆盖更广泛的区域,从而捕获更大范围的上下文信息。相反,在具有较小体素间距的高分辨率图像中,SAC会使用较小的卷积核,以更精细地捕捉细节。
- 自适应特征提取:通过这种方式,SAC能够更有效地提取各种医学图像中的特征。对于高分辨率图像,它可以更精确地捕捉细节;对于低分辨率或不均匀采样的图像,它可以通过较大的卷积核捕获更多的上下文信息。
SAC模块的优势
SAC模块的主要优势在于其灵活性和适应性。它能够针对不同类型的医学图像动态调整卷积操作,从而提高模型处理不同空间属性图像的能力。这种方法对于提高医学图像分析的精度和效率至关重要,特别是在涉及多种成像技术和不同解剖区域的图像时。
各向异性的影响
在本文中提到的“度量各向异性”(degree of anisotropy)是一个关键概念,用于描述医学图像中体素的空间分布特性。在医学成像领域,各向异性是指图像在不同方向上分辨率的不一致性。具体来说,在三维医学图像中,体素可能在垂直于切片的方向(通常是Z轴)上的尺寸与在切片内(即X轴和Y轴)的尺寸不同。这种不一致性导致图像在不同方向上的空间分辨率不同,即表现出各向异性。
- 分辨率差异:在具有高度各向异性的图像中,体素在不同方向上的大小差异可能很大。例如,MRI或CT扫描中沿Z轴的体素尺寸可能比X轴和Y轴上的大得多。
- 图像解释:这种分辨率的不一致性可能影响图像的解释和分析,尤其是在进行三维重建或体素级分析时。
- 图像处理挑战:对于深度学习模型而言,处理高度各向异性的图像比处理各向同性(即在所有方向上具有相同分辨率)的图像更具挑战性。
各向异性的度量
论文中定义了公式 D A = max { 0 , ⌊ log 2 s slice s plane ⌋ } \mathrm{DA}=\max \left\{0,\left\lfloor\log _{2} \frac{s_{\text {slice }}}{s_{\text {plane }}}\right\rfloor\right\} DA=max{ 0,⌊log2splane sslice ⌋},用于量化医学图像在不同维度上的空间分辨率差异,特别是在处理3D图像(如CT或MRI扫描)时。
- s s l i c e s_{slice} sslice

本文介绍预训练通用医学图像变换器(PUMIT)算法,旨在解决标记医学图像数据稀缺问题。通过自监督学习,利用大量未标记数据。提出空间自适应卷积(SAC)模块,改进视觉标记器。在55个公共医学图像数据集预训练,下游任务性能和标记效率出色。
最低0.47元/天 解锁文章
1464

被折叠的 条评论
为什么被折叠?



