由于局部性的归纳偏差,CNN无法有效提取乳腺癌组织病理图像的全局特征信息,限制了分类结果的提高。
本文合理地引入了纯 Transformer 的额外主干流,该主干流由自注意力机制组成,用于捕获组织病理学图像的全局感受野,从而补偿 CNN 主干的局部性特征。基于CNN和Transformer的两个主干流,提出了一种称为DCET-Net的双流网络,它同时考虑局部特征和全局特征,并逐步将这两个流中的它们组合起来形成最终的分类表示。
组织病理学图像可以清晰地显示乳腺组织细胞,与其他医学检查技术相比具有不可替代的权威性。然而,观察组织切片具有主观性且耗时,这使得病理学家很难从组织病理学图像中准确筛查和诊断乳腺癌。
目前利用深度学习的乳腺癌组织病理学图像分类方法主要可以分为两类。一些研究人员采用代表性的卷积神经网络(CNN)模型作为提取器来捕获乳腺癌组织病理学图像的深层特征,然后使用传统的机器学习模型构建特征分类器来区分提取的深层特征,这也是总结为非端到端方法。
非端到端方法指的是将问题划分为多个子问题,每个子问题单独处理,再将处理结果组合起来得到最终输出的方法
将注意力机制引入端到端模型中,用于对乳腺癌组织病理学图像进行分类。由于CNN的局部性,这些模型难以有效捕获乳腺癌组织病理图像的全局特征信息,这在一定程度上限制了分类性能的进一步提高。
除了CNN主干之外,由一堆基于自注意力机制的Transformer层组成的Vision Transformer成功应用于许多视觉任务,并取得了令人印象深刻的性能。 Transformer 主干可以捕获每个 Transformer 层中的全局上下文,这与仅关注局部性的 CNN 主干有显著不同。
Transformer的几种变体
DETR 基于 Transformer 构建,是第一个探索其在物体检测中的应用并获得有竞争力的结果。
Max-DeepLab,其中掩码Transformer可用于直接预测带有类别标签的掩码,并使用 二分图匹配 来训练具有全景质量启发损失的掩码。
VisTR 将视频实例分割视为并行序列解码/预测问题。通过给出由多个图像帧组成的视频剪辑作为输入,VisTR 直接输出视频中每个实例的掩码顺序。它在目标检测和全景实例分割领域取得了优越的性能,研究人员越来越多地尝试将其应用到广泛关注的图像分类任务中。
在VisTR(Video Instance Segmentation with Transformers)输出的视频中,每个实例的掩码(Mask)是指用于标识和区分视频帧中各个独立实例(如物体、人物等)的二进制图像。掩码通常是一个