CVPR2023病理图像无监督学习：Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology-优快云博客

CVPR2023病理图像无监督学习：Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images

论文地址：Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images

代码地址：GitHub - mahmoodlab/MI-Zero: Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images - CVPR 2023

病理图像是一个比较新的研究，目前做的比较全面的工作来自哈佛大学医学院，很多疾病直接从表面是无法获得到有效的信息种，通过对组织进行切片，可以准确地判断疾病的类型。但是一般情况下，载玻片形式的病理图像尺寸都非常大，像素基本在1w×1w以上，针对patch级别的病理图像的研究很多，但是基于wsi图像的研究比较少。所以这篇论文中作者主要是为了建立一个无监督的用于零样本wsi病理图像分类的模型，实际上这里的模型是通过类似于clip的结构来进行建立的。

对比视觉语言预训练已经成为一种强大的方法，用于训练新的语言感知图像编码器或增强现有的具有零拍摄视觉识别能力的预训练模型。然而，现有的工作通常在大的图像文本对数据集上进行训练，并且被设计为执行仅涉及小到中等大小图像的下游任务，这两者都不适用于新兴的计算病理学领域，其中存在有限的公开可用的成对图像文本数据集，并且每个图像可以跨越高达100，000 × 100，000像素。在本文中，我们提出了MIZero，一个简单直观的框架，用于释放千兆像素组织病理学全载玻片图像上对比对齐图像和文本模型的零拍摄传输功能，使多个下游诊断任务能够由预训练的编码器执行，而无需任何额外的标签。MI-Zero在多实例学习的框架下重新定义了零镜头传输，以克服在超大图像上进行推理的计算挑战。我们使用了超过550 k的病理报告和其他可用的域内文本语料库来预训练我们的文本编码器。通过有效地利用强大的预训练编码器，我们在超过33，000个组织病理学图像-标题对上预训练的最佳模型在三种不同的真实世界癌症亚型分型任务中实现了70.2%的平均中位零射击准确度。（翻译自摘要）