MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation

最新推荐文章于 2025-01-08 15:50:04 发布

原创

最新推荐文章于 2025-01-08 15:50:04 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #计算机视觉 #论文阅读

MedNeXt是一个为医学图像分割设计的现代化卷积网络，结合了ConvNeXt和Transformer的优点。它引入了全ConvNeXt3D编码器-解码器结构，残差倒置瓶颈用于上采样和下采样，以及大内核卷积的UpKern技术，防止性能饱和。此外，MedNeXt支持深度、宽度和感受野的复合缩放，提高了在有限数据集上的性能。实验显示，MedNeXt在多个医学图像分割任务中超越了多种基线方法。

前言

论文：http://arxiv.org/abs/2303.09975
代码：暂无

缺乏大规模的带注释的医学分割数据集使得医学图像分割实现与自然图像分割相当的性能具有挑战性。卷积网络具有更高的归纳偏置（归纳偏置的解释可以看这个博文【机器学习】浅谈归纳偏置 (Inductive Bias)）（我感觉意思是更适合处理图像），因此易训练为高性能。最近，ConvNeXt架构试图去通过模仿Transformer去现代化改造ConvNet。在这篇工作中，设计一个现代化和可扩展的卷积架构，针对数据稀缺的医疗环境的挑战进行定制。提出MedNeXt，这是一个基于Transformer的大卷积核分割网络，它引入了
(1) 用于医学图像分割的全 ConvNeXt 3D 编码器-解码器网络
(2) 残差 ConvNeXt 上采样和下采样块，以跨尺度保留语义丰富性
(3) 一种通过对小型内核网络进行上采样来迭代增加内核大小的新技术，以防止有限医疗数据的性能饱和
(4) 在 MedNeXt 的多个级别（深度、宽度、内核大小）进行复合缩放。
这导致了在CT和MRI模态和不同数据集大小的4个任务上的最先进的性能，代表了用于医学图像分割的现代化深度架构。

1. Introduction

Transformer被广泛应用，但是由于它有限的归纳偏置，所以被大型的注释数据集最大化性能收益所困扰。为了保持卷积固有的归纳偏置，同时利用Transformer的结构进行改进,最近提出的ConvNext重新建立卷积网络对自然图像处理的竞争性能。
ConvNeXt架构使用Transformer倒置的bottleneck，由深度层、扩展层、收缩曾组成，此外还有大型的深度内核复制长程表征学习，用庞大的数据集训练优于基于Transformer的网络。相反的，VGGNet堆叠小卷积核仍然是设计雨雪图像分割中卷积神经网络的主要技术。开箱即用的数据高效解决方案，如nnUNet ，使用标准UNet的变体，在广泛的任务中仍然有效。
ConvNeXt将Vision和Swin Transformer的远程空间学习能力与ConvNets固有的归纳偏置相结合。
倒置bottleneck设计允许我们扩展宽度(增加channels)不受kernel size的影响。
好好的利用可以得到以下的优势：
(1) 通过大的卷积核学习长程空间依赖
(2) 同时扩展多个网络级别
要实现这些需要有对抗大型网络对有限训练数据过度拟合的趋势。
近期有将大卷积

最低0.47元/天解锁文章

MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation

文章目录

前言

1. Introduction

2 条评论