用于医学图像分割的扩散变压器 U-Net
1. 引言
深度学习方法如卷积神经网络(CNN)和视觉变压器(ViT)已被应用于医学图像分割并取得了不错的效果。然而,这些方法在网络架构上存在一些固有局限性。例如,CNN 能够提取局部特征,但无法直接提取全局特征;而 ViT 采用固定窗口,限制了其提取精确像素级分割所需的精细上下文细节的能力。
最近,去噪扩散概率模型(DDPM)在各种条件和无条件生成任务中表现出色,也被应用于医学图像分割。但它也存在一些缺点:一是源图像提取的语义嵌入与扩散过程中的噪声嵌入对齐不佳,导致条件作用差和性能不佳;二是基于 DDPM 的方法中的 U-Net 骨干网络在反向扩散(去噪)过程中对各种尺度的上下文信息不敏感,这在 CNN 和 ViT 中也有体现。
为克服这些局限性,提出了扩散变压器 U-Net,主要贡献如下:
- 提出一种具有前向和后向过程的条件扩散模型来训练分割网络。在后向去噪过程中,通过新的交叉注意力模块将噪声图像的特征嵌入与条件源图像的特征嵌入对齐,然后由分割网络将其去噪为源图像的分割掩码。
- 设计了一种基于变压器的 U-Net,即 MT U-Net,它具有多尺寸窗口,用于提取像素级和全局上下文特征,以实现良好的分割性能。
- 由扩散模型训练的 MT U-Net 在各种成像模态上具有很强的泛化能力,在包括息肉分割、皮肤病变分割和视杯分割等五个基准数据集上优于所有当前的先进模型。
2. 方法
2.1 扩散模型
扩散过程分为前向和反向两个过程:
- 前向过程:通过 T 个时间步逐渐添加高斯噪声,将真实标签 M0 转换为噪声真实标签 MT。