医学图像分割最成功的方法是使用依赖卷积运算作为主要构建块的深度学习模型。
卷积具有重要的特性,例如稀疏交互、权重共享和平移等变性。这些特性使卷积神经网络 (CNN) 具有强大且有用的归纳偏差,可用于视觉任务。
给定一个三维图像,我们的网络将其划分为个3D块,其中n=3或5。并为每个块计算一个一维的嵌入。网络根据这些补丁嵌入之间的自注意力机制,预测图像块中中心区域的分割图。这意味着网络会考虑所有补丁的信息,并通过计算它们之间的依赖关系来确定中心区域每个像素的类别标签。当标记训练数据较少时,通过预训练,我们提出的网络相对于 CNN 的优势可能非常显著。
- 分割图(Segmentation Map):在图像处理中,分割图是一个与输入图像大小相同的矩阵,其中每个像素通常对应一个类别标签,表示该像素属于图像中的哪个部分或对象。
- 图像块(Block)和中心区域(Center Patch):图像被划分为多个小块或区域,其中每个块包含多个子块或补丁(patch)。中心区域通常指的是这些块中的一个特定区域,可能是为了专注于图像的某个重要部分。
- 补丁嵌入(Patch Embeddings):通常,图像首先被转换为一系列嵌入向量(或特征向量),每个向量代表图像的一个小块或补丁。这些嵌入向量是模型的输入,并用于计算自注意力权重。
1. 介绍
图像分割是医学图像分析的核心任务。它通常用于量化感兴趣的体积/器官的大小和形状、人口研究、疾病量化、治疗计划和计算机辅助干预。
医学图像分割中的经典方法涵盖从区域生长[11]和可变形模型[36]到基于图集的方法[32]、贝叶斯方法[29]、图割[26]、聚类方法[12]等。
目前工作的一个共同特征是使用卷积运算作为网络的主要构建块。所提出的网络架构在卷积运算的排列方式方面也有所不同。人们已经尝试使用循环网络和注意力机制进行医学图像分割。
卷积运算的有效性归因于:①局部(稀疏)连接;②参数(权重)共享;③平移等方差。
平移等方差(Shift-equivariance)描述的是网络对于输入图像中对象的平移具有等变性的特性。具体来说,如果输入图像中的对象发生平移(即在同一平面内,按照某个直线方向做相同距离的移动),那么网络输出的特征图也会相应地发生平移,但特征表示本身(如对象的识别)不会改变。
典型图像中的像素数量远大于自然语言处理应用中的数据单元(例如单词)数量。
ViT则是将图像块而不是像素视为图像中的信息单位。ViT 将图像块嵌入到共享空间中,并使用自注意力模块学习这些嵌入之间的关系。通过使用 CNN 教师的知识蒸馏并使用标准训练数据和计算资源,Transformer 网络可以实现与 CNN 相当的图像分类准确度水平。
文章提出的内容
基于 3D 图像块线性嵌入之间的自注意力的网络架构,无需任何卷积操作
提出了预训练方法,当有大量未标记的训练图像可用时,该方法可以提高我们网络的分割准确率。我们表明,当标记的训练图像数量较少时,我们的网络表现优于