STLF-VA
self-supervised transfer learning framework driven by visual attention
是一种用于胸部CT肺结节良恶性分类的深度学习模型
论文链接放在这里(https://www.sciencedirect.com/science/article/abs/pii/S0957417422023570)
模型架构及功能
- 数据预处理模块 :主要对原始CT扫描数据进行标准化和统一化处理,包括空间分辨率统一、灰度值标准化和3D样本裁剪等操作,以消除不同数据集之间的差异,为后续模型训练提供统一规范的数据。
- 自监督预训练模块 :利用大量未标注的CT图像学习鲁棒的图像表示,包含粗预训练和细预训练两个阶段。粗预训练阶段,以从CT扫描中随机裁剪的未标注3D视觉单词为输入,使用3D U-Net结构作为编码器-解码器网络,结合多种图像扰动操作进行图像修复任务,学习通用的图像特征表示;细预训练阶段,则使用包含肺结节对象的未标注3D视觉单词作为输入,进一步优化模型,使其学习到更适用于肺结节分类任务的特征表示。
- 多视图聚合注意力模块(MVAA) :旨在解决肺结节周围复杂背景组织的干扰问题,由特征图注意力机制和卷积核注意力机制组成。特征图注意力机制包括切片注意力、通道注意力和空间注意力,分别从不同维度对特征图进行校准,突出重要的特征区域;卷积核注意力机制则适应不同大小的肺结节ROI,通过动态调整卷积核的权重来增强特征表示。
- 迁移学习分类模块 :将自监督预训练中学到的特征表示迁移到肺结节分类任务中,由特征提取器、全局平均池化层和分类器组成。特征提取器使用自监督预训练中学习到的编码器部分,全局平均池化层将特征图转换为固定长度的特征向量,分类器则由多个全连接层组成,用于对特征向量进行分类,输出肺结节的良恶性预测结果。
- 数据增强模块 :通过旋转和水平翻转等操作对标注的肺结节样本进行数据增强,扩充训练数据集,以减轻模型过拟合问题。
模型训练及应用流程
- 预训练阶段 :先利用未标注的CT数据对自监督预训练模块进行粗预训练和细预训练,学习到通用和特定于肺结节的图像特征表示。
- 特征提取与校准阶段 :将预处理后的包含肺结节的3D样本输入到预训练好的编码器中,提取特征向量,然后通过MVAA模块对特征向量进行多角度校准,突出重要特征并抑制背景干扰。
- 分类训练阶段 :将校准后的特征向量输入到迁移学习分类模块中,与标注的肺结节数据联合训练,通过优化分类损失函数,使模型学习到如何根据特征向量准确判断肺结节的良恶性。
- 模型应用阶段 :对于新的待预测的胸部CT图像,先进行数据预处理和样本裁剪,得到包含肺结节的3D样本,然后依次经过预训练好的编码器提取特征、MVAA模块校准特征以及分类器进行良恶性预测,最终输出预测结果。