背景
数字病理学
数字病理学是指将传统的玻璃病理切片进行数字化处理,并将其存储、管理和分析的过程。数字化病理切片称为全切片图像(WSI),具有高分辨率、层次化结构和巨大的数据量。
WSI 分类
WSI 分类是指对 WSI 进行自动识别和分类的过程,例如癌症亚型分类、分期和组织分割等。由于 WSI 数据量大、标注困难,因此 WSI 分类是一个具有挑战性的任务。
多实例学习(MIL)
MIL 是一种弱监督学习框架,它将 WSI 视为一个包含多个实例(图像块)的“袋”,并学习从这些实例中提取袋级特征,用于分类任务。MIL 方法能够有效地处理 WSI 数据,但依赖于大量的袋级标签,泛化性能有限。
视觉语言模型(VLM)
VLM 是一种能够理解图像和文本之间关系的人工智能模型。它通常由图像编码器和文本编码器组成,通过在大规模图像-文本对上进行预训练,学习图像和文本的联合表示。VLM 方法在自然图像分类、分割、目标检测等任务中取得了显著的成果。
要解决的问题
- MIL方法的局限性
- MIL-based方法依赖大量带包级标签的幻灯片训练,对于罕见病难以获取足够数据,且仅从原始幻灯片学习,易受数据分布影响,泛化性能差。
- VLM方法的不足
- VLM-based方法的文本提示缺乏病理先验知识,在识别模糊类别时有效性不足。
- 依赖大量病理图像 - 文本对,收集困难且耗时耗力,预训练过程计算资源需求大、时间长。
- 难以将VLM高效转移到处理WSI任务中,未充分考虑WSI的层次结构和大规模特性。
ViLa-MIL 的解决方案
- 双尺度视觉描述文本提示: 利用冻结的 LLM 生成低分辨率和高分辨率两个尺度的文本提示,分别对应 WSI 的全局结构和局部细节,引导 VLM 挖掘更具判别性的诊断相关形态学模式。
- 原型引导的图像分支解码器: 通过可学习的原型向量将相似的图像块分组到同一原型中,逐步融合图像块特征,使每个原型捕获更多的全局上下文信息。
- 上下文引导的文本分支解码器: 利用多粒度的图像上下文(局部图像块特征和全局原型特征)作为指导,进一步细化文本特征,使预训练的 VLM 文本编码器知识得到更好的利用。
通过以上解决方案,ViLa-MIL 能够有效地解决现有方法的局限性,在 WSI 分类任务中取得优异的性能。
要做的任务,输入和输出,工作流程
任务
ViLa-MIL 的任务是进行全切片图像(WSI)的分类,例如癌症亚型分类、分期和组织分割等。
输入
- 问题: 一个文本问题,例如“这张 WSI 图像属于哪种癌症亚型?”
- WSI 图像: 一张 WSI 图像,包含低分辨率和高分辨率两个版本。
输出
- WSI 分类结果: 预测该 WSI 图像属于哪个类别,例如癌症亚型名称。
工作流程
- 数据预处理
- 首先使用Otsu’s binarization算法处理原始WSI,过滤掉非组织区域。
- 对裁剪的补丁进行染色预处理,采用z - score归一化。
- 文本提示生成
- 设计文本问题提示,如 “What are the visually descriptive characteristics of {class name} at low and high resolution in the whole slide image?”,将类别名称代入后,利用冷冻大语言模型(LLM)生成低尺度和高尺度的视觉描述性文本提示。例如对于肾癌细胞亚型分类任务,生成如PRCC的低尺度文本提示关注低分辨率下的组织结构(如 “the papillary growth pattern” 和 “well - circumscribed borders”),高尺度文本提示关注高分辨率下的细节(如 “nuclei arranged in layers” 和 “heterogeneous cytoplasm”)。同时,在文本提示中添加可学习向量作为补充。
- 图像特征提取与聚合(图像分支)
- 采用非重叠滑动窗口方法从WSI中裁剪出补丁,利用冻结的CLIP图像编码器将补丁映射为特征向量。
- 随机初始化可学习的原型特征,将其与低尺度补丁特征输入原型引导注意力层(交叉注意力层),使相似补丁分组到同一原型,得到初步融合的特征。
- 通过注意力 - 基于特征融合方法,计算注意力权重,对原型特征进行加权求和,得到最终的幻灯片级低尺度图像特征。高尺度图像特征生成过程类似。
- 文本特征优化(文本分支)
- 将低尺度视觉描述性文本提示输入冻结的文本编码器生成低尺度文本特征。
- 将低尺度原型特征和补丁特征连接作为键和值,低尺度文本特征作为查询,通过上下文引导注意力层(交叉注意力层)优化文本特征,得到更新后的低尺度文本特征。高尺度文本特征优化过程类似。
- 计算相似度与训练模型
- 计算幻灯片级图像特征(低尺度和高尺度)与相应优化后的文本特征之间的相似度,基于相似度计算预测概率。
- 使用交叉熵损失函数,将预测概率与幻灯片级标签进行对比,通过反向传播算法更新模型参数,实现端到端的训练,不断优化模型,提高分类性能。
详解框架
实验
数据集
- TIHD-RCC: 由作者团队收集的肾细胞癌亚型数据集,包含 300 张 WSI 图像,分为三个亚型:透明细胞癌、乳头状癌和嫌色细胞癌。
- TCGA-RCC: 来自 TCGA 数据库的肾细胞癌亚型数据集,包含 525 张 WSI 图像,分为三个亚型:透明细胞癌、乳头状癌和嫌色细胞癌。
- TCGA-Lung: 来自 TCGA 数据库的肺癌亚型数据集,包含 575 张 WSI 图像,分为三个亚型:腺癌、鳞状细胞癌和大细胞癌。
实验设置
- 少样本学习: 在每个数据集上,随机选择每个类别 16 张图像作为训练数据,其余图像作为验证数据和测试数据。
- 评估指标: 使用 AUC、F1 分数和准确率作为评估指标。
- 实验次数: 对每个方法进行五次实验,每次实验随机划分数据集,并选择相同的训练数据。
实验结果
- 与 MIL 方法对比: ViLa-MIL 在三个数据集上的 AUC、F1 分数和准确率均优于现有的基于 MIL 的方法,例如 Max-pooling、Mean-pooling、ABMIL、CLAM、TransMIL、DSMIL、GTMIL 和 DTMIL。
- 与 VLM 方法对比: ViLa-MIL 在三个数据集上的 AUC、F1 分数和准确率均优于现有的基于 VLM 的方法,例如 MI-Zero 和 PLIP。
- 消融实验: 通过消融实验,验证了 ViLa-MIL 中每个模块的有效性,包括双尺度视觉描述文本提示、原型引导的图像分支解码器和上下文引导的文本分支解码器。
- 参数敏感性分析: 通过参数敏感性分析,验证了 ViLa-MIL 对不同参数的鲁棒性,例如原型向量的数量、上下文标记的数量和 LLM 的选择。
- 跨域泛化: 在 TIHD-RCC 和 TCGA-RCC 数据集之间进行交叉验证,结果表明 ViLa-MIL 具有良好的跨域泛化能力。