【阅读笔记】MI-Zero：视觉语言模型 + 多实例学习，零样本迁移实现病理学领域的零样本分类

最新推荐文章于 2025-05-28 23:17:08 发布

AIM086

最新推荐文章于 2025-05-28 23:17:08 发布

阅读量935

点赞数 17

分类专栏：论文阅读多实例学习 Transformer+MIL 文章标签：笔记语言模型 transformer 论文阅读人工智能分类

本文链接：https://blog.youkuaiyun.com/qq_43538018/article/details/143957558

版权

论文阅读同时被 3 个专栏收录

4 篇文章

订阅专栏

Transformer+MIL

3 篇文章

订阅专栏

多实例学习

1 篇文章

订阅专栏

在计算病理学领域，全切片图像（WSI）因其超高分辨率和复杂性，给自动化诊断技术带来了巨大的挑战。传统方法依赖精确标注的训练数据，面对标注困难、数据稀缺的小样本任务往往表现受限。CVPR 2023的一篇论文提出了一种新的框架 MI-Zero，通过结合视觉语言模型与多实例学习（MIL），实现了病理学领域的零样本（Zero-shot）分类，展现出极大的应用潜力。

1. 背景

全景切片图像通常具有高达 100,000 × 100,000 像素的分辨率，图像包含多种组织和细胞类型，局部区域可能展现复杂的病理特征，标注复杂且样本量有限。

传统的监督学习方法依赖区域级或图像级的标注，且无法精确定位病灶区域。许多罕见肿瘤类型因样本数量不足，无法训练高性能的监督学习模型。因此，传统方法面临着数据匮乏与计算资源瓶颈的问题。

视觉-语言模型（如 CLIP、ALIGN）已证明其在自然图像分类上的零样本迁移（Zero-shot transfer）能力，但这些技术尚未被充分探索应用于病理图像，原因在于：

缺乏大规模的图像-文本配对数据集。
全切片图像的超高分辨率和异质性，增加了模型处理的难度。

为此，MI-Zero 提出了一个多实例学习框架，以利用预训练模型在病理学领域执行零样本任务。

Zero-shot Transfer（零样本迁移）指的是一个模型在没有见过目标任务的任何标注数据的情况下，直接通过学习到的知识（即预训练一个通用性强的模型）完成该任务。这个能力依赖于模型在预训练阶段所学到的通用知识和语义关系，可以通过灵活的方式将其迁移到新的场景或任务中。

预训练：模型通常在一个大规模的通用数据集上进行预训练。比如 CLIP 模型预训练时使用了包含数亿对图片和文本描述的对比数据。目标是学习到一个共享的嵌入空间，使图片和文本能够在这个空间中相互对齐。

任务迁移（Transfer）：在零样本任务中，不需要额外的训练，而是通过一些灵活的机制（如文本描述）将任务提示传递给模型。比如，在猫狗图像分类中，通过文本描述（如“这是一张显示猫的图片”，“这是一张显示狗的图片”）告诉模型需要识别的类别信息，模型基于输入的图片和任务提示（文本描述）利用预训练时学到的语义关系和对齐知识进行推理，输出预测结果（“猫”或“狗”）。

2. MI-Zero 方法

2.1 数据集的构建

论文中构建了一个包含 33,480 个病理学图像-文本对的数据集，这是目前已知规模最大的此类数据集，主要来源包括：病理学公开教育资源，ARCH 数据集，Massachusetts General Hospital 的病理报告。

数据预处理采用正则化表达式对病理报告进行去标识化，并基于 Byte Pair Encoding（BPE）技术训练了自定义分词器，最终形成领域特定的文本嵌入模型 HistPathGPT。

去标识化：病理报告中可能包含患者的隐私信息（例如姓名、年龄、地址、病历号等），为了满足数据隐私要求，必须在训练模型之前对这些信息进行脱敏处理。使用 正则化表达式 来实现去标识化，通过定义匹配规则，精确识别敏感信息位置并将其删除或替换。这样既能保留报告的诊断信息，又能满足数据隐私的要求。假设一份病理报告包含如下信息：
```
患者姓名：张三，出生日期：1980年05月15日
诊断结果：乳腺癌
```
匹配到 患者姓名：张三，将其替换为 患者姓名：[已脱敏]。匹配到 1980年05月15日，将其替换为 [已脱敏]。处理后的文本如下：
```
患者姓名：[已脱敏]，出生日期：[已脱敏]
诊断结果：乳腺癌
```
Byte Pair Encoding（BPE）技术训练自定义分词器：分词是自然语言处理中的关键步骤，它将文本分解为更小的单位（如单词或子词），以便后续建模。通用分词器可能无法很好地处理病理学领域的专业术语（如“adenocarcinoma”或“lymphocyte”），这会降低模型对领域文本的理解能力。因此，论文使用 BPE 技术在病理学数据上训练了一个自定义分词器：
- 从病理报告和医学文献中获取领域数据，作为训练分词器的语料。
- 使用 BPE 在病理学文本上生成子词词表，确保领域内常用术语能够被分解为合适的子词单元。它的核心思想是：
  - 从单字符开始：将每个单词分成单个字符。假设文本为 "adenocarcinoma cancer"，每个单词拆分成单个字符 "a d e n o c a r c i n o m a c a n c e r"。
  - 频率最高的字符对合并：计算相邻字符对的出现频率：
```
('a', 'd'): 1, ('d', 'e'): 1, ('e', 'n'): 1, ...
```
    每次合并频率最高的字符对，逐步形成更大的子词单元，假设 ('a', 'd') 出现频率最高，则将其合并："ad e n o c a r c i n o m a c a n c e r"。
  - 反复执行上述操作：直到达到指定的词表大小或没有可合并的字符对，如最终分解得到子词序列：adeno，carcinoma，cancer
文本嵌入模型 HistPathGPT：分词后的文本（子词序列）需要进一步通过模型转换为嵌入向量，以便与图像特征对齐。HistPathGPT 使用了 GPT2-medium 的自回归 Transformer 架构，是一个专为病理学领域设计的文本嵌入模型，能够有效捕捉病理报告中的语义信息。将病理文本子词序列输入到 HistPathGPT 中，输出高质量的文本嵌入。

MI-Zero 是一种结合视觉语言模型与多实例学习的框架，核心思想是将全切片图像分割为多个小块（patch），通过对比学习实现图像和文本特征的对齐，并通过无监督的聚合方法完成分类。

2.2 模型训练：双向对齐视觉与语言嵌入

预训练的图像编码器：MI-Zero 需要在图像数据集上预训练一个图像编码器（如 CTransPath）。预训练通常采用 自监督学习（SSL），无需显式标签。CTransPath 专为病理学领域设计，通过大规模无标注的病理图像提取通用视觉特征。
预训练的文本编码器：文本编码器会在与病理学相关的文本上预训练（如病理报告或 PubMed 摘要）。预训练目标是让文本编码器对领域特定的语言（如病理学术语）具备更强的语义理解能力。

有了预训练编码器之后，论文采用对比学习方法，通过温度缩放的交叉熵损失函数（详细讲解见文章Temperature-scaled cross-entropy loss，温度缩放的交叉熵损失）对视觉和语言嵌入进行对齐。为了确保图像和文本之间的相似度计算是双向对称的，也就是让图像能够与正确的文本匹配，同时让文本也能与正确的图像匹配。其核心公式如下：

图像到文本的对比损失：

$L_{i \to t}(\theta, \phi) = -\sum_{i=1}^M \log \frac{\exp(\frac {u_i^T v_i}{\tau})}{\sum_{j=1}^M \exp(\frac{u_i^T v_j}{\tau} )}$

文本到图像的对比损失：

$L_{t \to i}(\theta, \phi) = -\sum_{j=1}^M \log \frac{\exp(\frac{v_j^T u_j}{\tau} )}{\sum_{i=1}^M \exp(\frac{v_j^T u_i}{\tau} )}$

其中， $u_i$ 和 $v_i$ 分别表示图像和文本的嵌入； $\tau$ 是温度参数，用于调整对比学习的敏感性； $M$ 是参与损失计算的图像-文本对数量。

图像-文本对齐的具体操作：

由于全切片图像（WSI）的超大规模图像特性，直接对整张图像进行嵌入计算是不现实的。论文提出通过切分图像为小块（patch），并聚合其特征的方式来完成分类。

切分与编码：将每张全切片图像（WSI）切分为多个 patch，每个 patch 单独通过图像编码器生成特征向量。
类别标签模板化：将类别标签（如“腺癌”）通过模板生成自然语言描述（如“这是一张展示腺癌的图像”）。这种模板化提供上下文信息，帮助文本编码器生成更准确的文本嵌入。
相似度计算：对每个 patch 特征与所有类别标签文本特征计算相似度分数。通过聚合操作（均值池化（适合整体信息分布均匀的情况）或 Top-K 池化（选取最具代表性的 K 个 patch，对其分数进行聚合，更适用于含关键区域的病理图像）），得到全切片图像的整体相似度分数。
对比学习：通过对比学习对齐图像和文本的特征空间。通过对比损失优化，最小化图像与不相关文本描述的相似度，最大化图像与正确文本描述的相似度。

2.3 推理：多实例学习框架

在推理阶段，依赖于对齐的特征空间，直接使用模板生成的文本描述实现图像分类，表现出零样本迁移能力。输入新的全切片图像，将其切分为多个 patch，每个 patch 的特征向量与所有类别标签的文本特征进行相似度计算，和训练阶段的流程一致。聚合所有 patch 的相似度分数，得到全切片图像的整体相似度分数。最终根据相似度最高的类别分数，预测图像的分类结果。

分块嵌入计算

每个全切片图像（WSI）被切分为 $N$ 个 $256\times256$ 像素的 patch 实例，计算每个 patch 实例的嵌入 $u_i$ ，并基于文本嵌入 $w_m$ 计算相关性得分：

$s_i=u_i^T[w_1,w_2,...,w_C],s_i \in \mathbb{R}^C$

特征聚合方法

均值聚合（Mean Pooling）：
$h_{\text{mean}}(S) = \frac{1}{N} \sum_{i=1}^N s_i$
TopK 聚合：
$h_{\text{topK}}(S) = \frac{1}{K} \sum_{i=1}^K \tilde{s}_i^c$
其中， $\tilde{s}_i^c$ 表示属于类别 $c$ 的前个最大得分。
图聚合（Graph-Based Pooling）： 考虑实例间的空间关系，构建邻近图，采用均值滤波对实例得分进行平滑处理后再聚合。

3. 实验与结果

3.1 数据集与任务

论文在三个癌症亚型分类任务上验证了 MI-Zero 的效果：

乳腺癌（BRCA）：IDC vs. ILC
非小细胞肺癌（NSCLC）：LUAD vs. LUSC
肾细胞癌（RCC）：CHRCC vs. CCRCC vs. PRCC

与弱监督方法（如 ABMIL）相比，MI-Zero 的零样本性能在多个任务上接近甚至超过了仅用 1% 数据训练的监督模型。

3.2 核心发现

预训练对性能的重要性：使用自监督学习预训练的 CTP 图像编码器效果显著优于随机初始化或 ImageNet 预训练。在领域特定文本上训练的 HistPathGPT 也表现优异。
TopK 聚合优于均值聚合：TopK 聚合能更好地捕捉关键区域信息，尤其是在异质性较强的图像中。
对比学习模型效果验证：与通用的 CLIP 模型相比，MI-Zero 明显更适应病理图像任务。