【阅读笔记】MI-Zero:视觉语言模型 + 多实例学习,零样本迁移实现病理学领域的零样本分类

在计算病理学领域,全切片图像(WSI)因其超高分辨率和复杂性,给自动化诊断技术带来了巨大的挑战。传统方法依赖精确标注的训练数据,面对标注困难、数据稀缺的小样本任务往往表现受限。CVPR 2023的一篇论文提出了一种新的框架 MI-Zero,通过结合视觉语言模型与多实例学习(MIL),实现了病理学领域的零样本(Zero-shot)分类,展现出极大的应用潜力。

1. 背景

全景切片图像通常具有高达 100,000 × 100,000 像素的分辨率,图像包含多种组织和细胞类型,局部区域可能展现复杂的病理特征,标注复杂且样本量有限。

传统的监督学习方法依赖区域级或图像级的标注,且无法精确定位病灶区域。许多罕见肿瘤类型因样本数量不足,无法训练高性能的监督学习模型。因此,传统方法面临着数据匮乏计算资源瓶颈的问题。

视觉-语言模型(如 CLIP、ALIGN)已证明其在自然图像分类上的零样本迁移(Zero-shot transfer)能力,但这些技术尚未被充分探索应用于病理图像,原因在于:

  1. 缺乏大规模的图像-文本配对数据集。
  2. 全切片图像的超高分辨率和异质性,增加了模型处理的难度。

为此,MI-Zero 提出了一个多实例学习框架,以利用预训练模型在病理学领域执行零样本任务。

Zero-shot Transfer(零样本迁移)指的是一个模型在没有见过目标任务的任何标注数据的情况下,直接通过学习到的知识(即预训练一个通用性强的模型)完成该任务。这个能力依赖于模型在预训练阶段所学到的通用知识和语义关系,可以通过灵活的方式将其迁移到新的场景或任务中。

  • 预训练:模型通常在一个大规模的通用数据集上进行预训练。比如 CLIP 模型预训练时使用了包含数亿对图片和文本描述的对比数据。目标是学习到一个共享的嵌入空间,使图片和文本能够在这个空间中相互对齐。
  • 任务迁移(Transfer):在零样本任务中,不需要额外的训练,而是通过一些灵活的机制(如文本描述)将任务提示传递给模型。比如,在猫狗图像分类中,通过文本描述(如“这是一张显示猫的图片”,“这是一张显示狗的图片”)告诉模型需要识别的类别信息,模型基于输入的图片任务提示(文本描述)利用预训练时学到的语义关系和对齐知识进行推理,输出预测结果(“猫”或“狗”)。

2. MI-Zero 方法

2.1 数据集的构建

论文中构建了一个包含 33,480 个病理学图像-文本对的数据集,这是目前已知规模最大的此类数据集,主要来源包括:病理学公开教育资源,ARCH 数据集,Massachusetts General Hospital 的病理报告。

数据预处理采用正则化表达式对病理报告进行去标识化,并基于 Byte Pair Encoding(BPE)技术训练了自定义分词器,最终形成领域特定的文本嵌入模型 HistPathGPT。

  • 去标识化:病理报告中可能包含患者的隐私信息(例如姓名、年龄、地址、病历号等),为了满足数据隐私要求,必须在训练模型之前对这些信息进行脱敏处理。使用 正则化表达式 来实现去标识化,通过定义匹配规则,精确识别敏感信息位置并将其删除或替换。这样既能保留报告的诊断信息,又能满足数据隐私的要求。假设一份病理报告包含如下信息:
    患者姓名:张三,出生日期:1980年05月15日
    诊断结果:乳腺癌

    匹配到 患者姓名:张三,将其替换为 患者姓名:[已脱敏]。匹配到 1980年05月15日,将其替换为 [已脱敏]。处理后的文本如下:

    患者姓名:[已脱敏],出生日期:[已脱敏]
    诊断结果:乳腺癌
  • Byte Pair Encoding(BPE)技术训练自定义分词器:分词是自然语言处理中的关键步骤,它将文本分解为更小的单位(如单词或子词),以便后续建模。通用分词器可能无法很好地处理病理学领域的专业术语(如“adenocarcinoma”或“lymphocyte”),这会降低模型对领域文本的理解能力。因此,论文使用 BPE 技术在病理学数据上训练了一个自定义分词器:

    • 从病理报告和医学文献中获取领域数据,作为训练分词器的语料。

    • 使用 BPE 在病理学文本上生成子词词表,确保领域内常用术语能够被分解为合适的子词单元。它的核心思想是:

      • 从单字符开始:将每个单词分成单个字符。假设文本为 "adenocarcinoma cancer",每个单词拆分成单个字符 "a d e n o c a r c i n o m a   c a n c e r"。

      • 频率最高的字符对合并:计算相邻字符对的出现频率:

        ('a', 'd'): 1, ('d', 'e'): 1, ('e', 'n'): 1, ...

        每次合并频率最高的字符对,逐步形成更大的子词单元,假设 ('a', 'd') 出现频率最高,则将其合并:"ad e n o c a r c i n o m a   c a n c e r"。

      • 反复执行上述操作:直到达到指定的词表大小或没有可合并的字符对,如最终分解得到子词序列:adenocarcinomacancer

  • 文本嵌入模型 HistPathGPT:分词后的文本(子词序列)需要进一步通过模型转换为嵌入向量,以便与图像特征对齐。HistPathGPT 使用了 GPT2-medium 的自回归 Transformer 架构,是一个专为病理学领域设计的文本嵌入模型,能够有效捕捉病理报告中的语义信息。将病理文本子词序列输入到 HistPathGPT 中,输出高质量的文本嵌入。

MI-Zero 是一种结合视觉语言模型与多实例学习的框架,核心思想是将全切片图像分割为多个小块(patch),通过对比学习实现图像和文本特征的对齐,并通过无监督的聚合方法完成分类。

2.2 模型训练:双向对齐视觉与语言嵌入

  1. 预训练的图像编码器:MI-Zero 需要在图像数据集上预训练一个图像编码器(如 CTransPath)。预训练通常采用 自监督学习(SSL),无需显式标签。CTransPath 专为病理学领域设计,通过大规模无标注的病理图像提取通用视觉特征。

  2. 预训练的文本编码器:文本编码器会在与病理学相关的文本上预训练(如病理报告或 PubMed 摘要)。预训练目标是让文本编码器对领域特定的语言(如病理学术语)具备更强的语义理解能力。

有了预训练编码器之后,论文采用对比学习方法,通过温度缩放的交叉熵损失函数(详细讲解见文章Temperature-scaled cross-entropy loss,温度缩放的交叉熵损失)对视觉和语言嵌入进行对齐。为了确保图像和文本之间的相似度计算是双向对称的,也就是让图像能够与正确的文本匹配,同时让文本也能与正确的图像匹配。其核心公式如下:

图像到文本的对比损失:

L_{i \to t}(\theta, \phi) = -\sum_{i=1}^M \log \frac{\exp(\frac {u_i^T v_i}{\tau})}{\sum_{j=1}^M \exp(\frac{u_i^T v_j}{\tau} )}

文本到图像的对比损失:

L_{t \to i}(\theta, \phi) = -\sum_{j=1}^M \log \frac{\exp(\frac{v_j^T u_j}{\tau} )}{\sum_{i=1}^M \exp(\frac{v_j^T u_i}{\tau} )}

其中,u_i 和 v_i 分别表示图像和文本的嵌入;\tau 是温度参数,用于调整对比学习的敏感性;M 是参与损失计算的图像-文本对数量。

图像-文本对齐的具体操作:

由于 全切片图像(WSI)的超大规模图像特性,直接对整张图像进行嵌入计算是不现实的。论文提出通过切分图像为小块(patch),并聚合其特征的方式来完成分类。

  1. 切分与编码:将每张全切片图像(WSI)切分为多个 patch,每个 patch 单独通过图像编码器生成特征向量。

  2. 类别标签模板化:将类别标签(如“腺癌”)通过模板生成自然语言描述(如“这是一张展示腺癌的图像”)。这种模板化提供上下文信息,帮助文本编码器生成更准确的文本嵌入。

  3. 相似度计算:对每个 patch 特征与所有类别标签文本特征计算相似度分数。通过聚合操作(均值池化(适合整体信息分布均匀的情况) 或 Top-K 池化(选取最具代表性的 K 个 patch,对其分数进行聚合,更适用于含关键区域的病理图像)),得到全切片图像的整体相似度分数。

  4. 对比学习:通过对比学习对齐图像和文本的特征空间。通过对比损失优化,最小化图像与不相关文本描述的相似度,最大化图像与正确文本描述的相似度。

2.3 推理:多实例学习框架

在推理阶段,依赖于对齐的特征空间,直接使用模板生成的文本描述实现图像分类,表现出零样本迁移能力。输入新的全切片图像,将其切分为多个 patch,每个 patch 的特征向量与所有类别标签的文本特征进行相似度计算,和训练阶段的流程一致。聚合所有 patch 的相似度分数,得到全切片图像的整体相似度分数。最终根据相似度最高的类别分数,预测图像的分类结果。

分块嵌入计算

每个全切片图像(WSI)被切分为 N 个 256\times256 像素的 patch 实例,计算每个 patch 实例的嵌入 u_i​,并基于文本嵌入 w_m​ 计算相关性得分:

s_i=u_i^T[w_1,w_2,...,w_C],s_i \in \mathbb{R}^C

特征聚合方法

  1. 均值聚合(Mean Pooling):

    h_{\text{mean}}(S) = \frac{1}{N} \sum_{i=1}^N s_i
  2. TopK 聚合:

    h_{\text{topK}}(S) = \frac{1}{K} \sum_{i=1}^K \tilde{s}_i^c

    其中,\tilde{s}_i^c​ 表示属于类别 c 的前 个最大得分。

  3. 图聚合(Graph-Based Pooling): 考虑实例间的空间关系,构建邻近图,采用均值滤波对实例得分进行平滑处理后再聚合。

3. 实验与结果

3.1 数据集与任务

论文在三个癌症亚型分类任务上验证了 MI-Zero 的效果:

  1. 乳腺癌(BRCA):IDC vs. ILC
  2. 非小细胞肺癌(NSCLC):LUAD vs. LUSC
  3. 肾细胞癌(RCC):CHRCC vs. CCRCC vs. PRCC

与弱监督方法(如 ABMIL)相比,MI-Zero 的零样本性能在多个任务上接近甚至超过了仅用 1% 数据训练的监督模型。

3.2 核心发现

  1. 预训练对性能的重要性:使用自监督学习预训练的 CTP 图像编码器效果显著优于随机初始化或 ImageNet 预训练。在领域特定文本上训练的 HistPathGPT 也表现优异。

  2. TopK 聚合优于均值聚合:TopK 聚合能更好地捕捉关键区域信息,尤其是在异质性较强的图像中。

  3. 对比学习模型效果验证:与通用的 CLIP 模型相比,MI-Zero 明显更适应病理图像任务。

4. 总结

MI-Zero 为病理图像分析领域提供了一种高效的零样本解决方案,其核心亮点在于利用对比视觉语言预训练和多实例学习策略,应对了 WSIs 的高分辨率与标注稀缺问题。然而,该方法的性能仍受限于图像-文本对数据的质量与规模。

未来方向可能包括:

  1. 扩展更大规模的高质量病理图像-文本对数据集。
  2. 探索更有效的聚合策略,进一步提升对异质性区域的识别能力。
  3. 将此方法推广至其他高分辨率影像领域,如卫星图像和遥感图像分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值