医学图像分割新进展:MedNeXt与SwinUNETR-V2技术解析
在医学图像分割领域,准确且高效的分割技术对于定量和精准医学至关重要。近年来,卷积神经网络(CNNs)和Transformer模型都在该领域取得了一定的成果,但也各自存在局限性。本文将详细介绍两种创新的医学图像分割模型:MedNeXt和SwinUNETR-V2,探讨它们的技术原理、实验设计和性能表现。
MedNeXt:Transformer驱动的卷积网络扩展
克服性能饱和的UpKern技术
在医学图像分割中,大核网络的训练往往面临性能饱和的问题。为了解决这一问题,研究者提出了UpKern技术。该技术通过三线性上采样不兼容大小的卷积核(表示为张量),用兼容的预训练小核网络初始化大核网络,从而迭代增加核大小。对于所有张量大小相同的其他层(包括归一化层),则通过复制未改变的预训练权重进行初始化。这种简单而有效的初始化技术,帮助大核网络在医学图像分割中常见的相对有限的数据场景下克服性能饱和。
深度、宽度和感受野的复合缩放
复合缩放的理念是在多个层面(深度、宽度、感受野、分辨率等)同时进行缩放,能带来比单一层面缩放更大的益处。在3D网络中,无限缩放核大小的计算需求很快变得过高,因此研究者对MedNeXt的块数(B)、扩展比(R)和核大小(k)进行了测试,分别对应深度、宽度和感受野大小。具体使用了4种MedNeXt模型配置,如下表所示:
| 模型配置 | 通道数(C) | 扩展比(R) | 块数(B) |
| — | — | — | — |
| MedNeXt-S | 32 | 2 | 2 |
| MedNeXt-B | 32 | 增加