5.14.3 UNETR：用于 3D 医学图像分割的 Transformers

最新推荐文章于 2024-12-15 13:40:37 发布

托比-马奎尔

最新推荐文章于 2024-12-15 13:40:37 发布

阅读量2.8k

点赞数 13

分类专栏： Transformer变形文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.youkuaiyun.com/qq_47896523/article/details/139067591

版权

具有收缩和扩展路径的全卷积神经网络 (FCNN) 在大多数医学图像分割应用中表现出了突出的作用。在 FCNN 中，编码器通过学习全局和局部特征以及上下文表示来发挥不可或缺的作用，这些特征和上下文表示可用于解码器的语义输出预测。

在FCNN中，收缩路径通常用于捕获图像的上下文信息，并逐步减少空间维度；而扩展路径则用于恢复空间维度，使输出图像的尺寸与输入图像相近，并提供更精细的分割结果。

FCNN中卷积层的局部性限制了学习远程空间远程依赖性的能力。受到自然语言处理（NLP）转换器最近在远程序列学习中取得成功的启发，将体积（3D）医学图像分割任务重新表述为序列到序列的预测问题。

UNET Transformers (UNETR)

利用 Transformer 作为编码器来学习输入量的序列表示并有效捕获全局多尺度信息，同时也遵循成功的“U 形”网络编码器和解码器的设计。

Transformer编码器通过不同分辨率的跳跃连接直接连接到解码器，以计算最终的语义分割输出。

多器官分割的颅穹外多图集标记 (BTCV) 数据集和用于脑肿瘤和脾脏分割任务的医学分割十项全能 (MSD) 数据集

“U形”编码器-解码器架构在各种医学语义分割任务中取得了最先进的结果。在典型的U-Net架构中，编码器负责通过逐渐下采样提取的特征来学习全局上下文表示，而解码器将提取的表示上采样到输入分辨率，以进行像素/体素语义预测。此外，跳跃连接将编码器的输出与不同分辨率的解码器合并，从而允许恢复在下采样期间丢失的空间信息。

跳跃连接https://blog.youkuaiyun.com/j_qin/article/details/127843666

尽管基于FCNN的方法具有强大的表示学习能力，但它们在学习远程依赖性方面的性能仅限于其局部感受野。因此，捕获多尺度信息的缺陷导致对形状和尺度可变的结构（不同大小的脑损伤）的分割不理想。可以使用多孔卷积层来扩大感受野。然而，卷积层中感受野的局部性仍然将其学习能力限制在相对较小的区域。将自注意力模块与卷积层相结合来提高非局部建模能力。

在自然语言处理（NLP）中，Transformer 的自注意力机制可以动态突出单词序列的重要特征。在计算机视觉中，使用 Transformer 作为骨干编码器是有益的，因为它们具有建模远程依赖关系和捕获全局上下文的强大能力。Transformer 将图像编码为一维补丁嵌入序列，并利用自注意力模块来学习从隐藏层计算的值的加权和。

将三维分割任务重新表述为一维序列到序列预测问题，并利用Transformer作为编码器从嵌入的输入补丁中学习上下文信息。从Transformer编码器提取的表示通过多个分辨率的跳跃连接与基于CNN的解码器合并，以预测分割输出。

提出的框架没有在解码器中使用 Transformer，而是使用基于 CNN 的解码器。这是因为，尽管 Tr