nnU-Net论文解读

 "nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation"  即 nnU-Net:基于U-Net的自适应医学图像分割框架。

论文链接:https://arxiv.org/abs/1809.10486

代码链接:https://github.com/MIC-DKFZ/nnUNet

目录

1、nnU-Net 是什么?

2、介绍

3、nnUNet的框架

4、nnUNet详细结构

5、UNet的优点:

6、3D UNet

7、U-Net Cascade

8、讨论


1、nnU-Net 是什么?

nnU-Net是由德国癌症研究中心、海德堡大学以及海德堡大学医院研究人员(Fabian Isensee, Jens Petersen, Andre Klein)提出来的一个自适应任何新数据集的医学影像分割框架,该框架能根据给定数据集的属性自动调整所有超参数,整个过程无需人工干预。仅仅依赖于朴素的U-Net结构(就是原始U-Net)和鲁棒的训练方案,nnU-Net在六个得到公认的分割挑战中实现了最先进的性能。

(可以将nnUNet用于医学图像分割用的原因是大部分的医学图像分割论文的实验对比中都用nnU-Net测试一下。看一下该任务的大致效果。所以要么使用的模型效果超过它,要么基于nnUNet改进。)

2、介绍

通常的分割模型都是针对某一特定任务(如 心脏分割)进行研究的,需要特定的网络架构设计以及训练方法的设定,它只能解决特定问题而无法解决一系列问题。而这个医学分割十项全能赛就是希望参赛者能开发一个适应多种分割任务的算法-nnUNet。

3、nnUNet的框架

nnU-Net (”no-new-Net”)框架。它驻留在一组三个相对简单的U-Net模型上,只包含对原始U-Net的微小修改。省略了最近提出的扩展,例如使用残差连接、密集连接或注意机制。nnU-Net会自动根据给定的图像几何结构调整其结构。更重要的是,nnU-Net框架彻底定义了围绕它们的所有其他步骤。

预处理(例如重采样和标准化)、训练(例如损失、优化器设置和数据扩充),推理(例如,基于补丁的策略和通过跨测试时扩展模型的集成)和潜在的后处理(例如,强制执行单个连通成分分析,如果适用)。

(其中,nnUNet对不同数据的处理方法是关键。)

4、nnUNet详细结构

主要包括三种Unet: 2D U-Net, 3D U-Net and U-Net Cascade(U-Net级联)。2D U-Net, 3D U-Net都是输入的全分辨率图像。级联U-Net 首先使用低分辨率的图像做一个粗分割,再使用全分辨图像做细分割。与U-Net的原始公式相比,我们的架构修改几乎可以忽略不计,相反,我们致力于为这些模型设计一个自动训练管道。

5、UNet的优点:

U-Net是近年来备受关注的一种成功的编解码网络。其编码器部分的工作原理与传统的分类CNN相似,它以减少空间信息为代价,连续地聚集语义信息。由于在分割过程中,语义和空间信息对网络的成功都至关重要,因此必须以某种方式恢复丢失的空间信息。U-Net通过解码器来实现这一点,解码器接收来自“U”底部的语义信息,并将其与通过跳过连接直接从编码器获得的更高分辨率特征图进行重新组合。与其他分割网络(如FCN[和以前的DeepLab迭代)不同,这使得U-Net能够很好地分割精细结构。

6、3D UNet

2D UNet在3D医学图像上无法汇总和考虑沿z轴的有价值的信息。3D U-Net是选择3D图像数据的适当方法。在理想情况下,我们将在整个患者的图像上训练。但是实际上,我们受到可用GPU内存量的限制,这使我们只能在图像块(image patches)上训练此体系结构。对于由较小图像组成的数据集(按每个患者的体素数量而言)基于 patch 的训练并不是问题(例如脑肿瘤,海马和前列腺等挑战的数据集)。

但普遍医学三维图像是很大的,不可能整个图像输入到网络中,因此就会把图像切成patch。而像肝这种大结构,切了之后就会损失很多上下文信息,即遮挡视野,不能将足够的上下文信息收集到例如计算机网络中,正确地区分肝脏和其他器官。

7、U-Net Cascade

为了解决3D U-Net在具有大图像尺寸的数据集上的实际缺陷,我们另外提出了一个级联模型。因此,首先要对降采样的图像进行3D U-Net训练(阶段1)。然后,将此U-Net的分割结果上采样到原始体素间距,并作为附加(一个热编码)输入通道传递到第二个3D U-Net,第二个3D U-Net在上以全分辨率进行训练(第2阶段)

(省略了2D UNet,简单介绍了3D UNet和U-Net Cascade,当输入不同的数据集时,可根据自己的任务,选择其中一个模型(算法),或者3个都跑一边看哪个结果好)

........中间的具体训练内容省略了......

8、讨论

在本文中,提出了医学领域的nnU-Net分割框架,该框架直接围绕原始U-Net架构构建,并动态地使其自身适应于任何给定数据集的细节。基于我们的假设,即非架构修改可能比最近提出的某些架构修改功能强大得多,该框架的本质是对自适应预处理,训练方案和推理的全面设计。

适应新的分割任务所需的所有设计选择均以全自动方式完成无需人工干预。对于每个任务,nnU-Net会针对三个不同的自动配置的U-Net模型自动运行五倍交叉验证,然后选择具有最高平均前景骰子得分的模型(或整体)进行最终提交。

训练三个模型并为每个数据集独立选择最佳模型并不是最干净的解决方案。给定一个较大的时间尺度,可以在训练之前研究适当的启发式方法,以确定给定数据集的最佳模型。当前的趋势倾向于U-Net级联(如果无法应用级联,则倾向于3D U-Net), 唯一的例外是前列腺和肝脏任务。此外,我们许多设计选择的额外好处,例如使用Leaky ReLUs 而不是常规ReLU,但数据扩充参数不合适。

### RT-DETRv3 网络结构分析 RT-DETRv3 是一种基于 Transformer 的实时端到端目标检测算法,其核心在于通过引入分层密集正监督方法以及一系列创新性的训练策略,解决了传统 DETR 模型收敛慢和解码器训练不足的问题。以下是 RT-DETRv3 的主要网络结构特点: #### 1. **基于 CNN 的辅助分支** 为了增强编码器的特征表示能力,RT-DETRv3 引入了一个基于卷积神经网络 (CNN) 的辅助分支[^3]。这一分支提供了密集的监督信号,能够与原始解码器协同工作,从而提升整体性能。 ```python class AuxiliaryBranch(nn.Module): def __init__(self, in_channels, out_channels): super(AuxiliaryBranch, self).__init__() self.conv = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1) self.bn = nn.BatchNorm2d(out_channels) def forward(self, x): return F.relu(self.bn(self.conv(x))) ``` 此部分的设计灵感来源于传统的 CNN 架构,例如 YOLO 系列中的 CSPNet 和 PAN 结构[^2],这些技术被用来优化特征提取效率并减少计算开销。 --- #### 2. **自注意力扰动学习策略** 为解决解码器训练不足的问题,RT-DETRv3 提出了一种名为 *self-att 扰动* 的新学习策略。这种策略通过对多个查询组中阳性样本的标签分配进行多样化处理,有效增加了阳例的数量,进而提高了模型的学习能力和泛化性能。 具体实现方式是在训练过程中动态调整注意力权重分布,确保更多的高质量查询可以与真实标注 (Ground Truth) 进行匹配。 --- #### 3. **共享权重解编码器分支** 除了上述改进外,RT-DETRv3 还引入了一个共享权重的解编码器分支,专门用于提供密集的正向监督信号。这一设计不仅简化了模型架构,还显著降低了参数量和推理时间,使其更适合实时应用需求。 ```python class SharedDecoderEncoder(nn.Module): def __init__(self, d_model, nhead, num_layers): super(SharedDecoderEncoder, self).__init__() decoder_layer = nn.TransformerDecoderLayer(d_model=d_model, nhead=nhead) self.decoder = nn.TransformerDecoder(decoder_layer, num_layers=num_layers) def forward(self, tgt, memory): return self.decoder(tgt=tgt, memory=memory) ``` 通过这种方式,RT-DETRv3 实现了高效的目标检测流程,在保持高精度的同时大幅缩短了推理延迟。 --- #### 4. **与其他模型的关系** 值得一提的是,RT-DETRv3 并未完全抛弃经典的 CNN 技术,而是将其与 Transformer 结合起来形成混合架构[^4]。例如,它采用了 YOLO 系列中的 RepNCSP 模块替代冗余的多尺度自注意力层,从而减少了不必要的计算负担。 此外,RT-DETRv3 还借鉴了 DETR 的一对一匹配策略,并在此基础上进行了优化,进一步提升了小目标检测的能力。 --- ### 总结 综上所述,RT-DETRv3 的网络结构主要包括以下几个关键组件:基于 CNN 的辅助分支、自注意力扰动学习策略、共享权重解编码器分支以及混合编码器设计。这些技术创新共同推动了实时目标检测领域的发展,使其在复杂场景下的表现更加出色。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值