https://arxiv.org/abs/2403.02469
用于医学报告生成和视觉问答的视觉语言模型:综述
用于医学报告生成和视觉问答的视觉语言模型:综述Iryna Hartsock1 和 Ghulam Rasool1
1 H. Lee Moffitt 癌症中心和研究所机器学习系
- 问题
- 如何有效整合计算机视觉(CV)与自然语言处理(NLP)技术,使视觉语言模型(VLMs)更好地理解和处理多模态医疗数据,以提高医疗报告生成和视觉问答等任务的性能。
- 如何克服医疗数据的复杂性和多样性,包括不同成像模态、文本格式以及临床场景的变化,以确保 VLMs 的准确性和泛化能力。
- 如何解决医疗领域中模型训练所需的大规模、多样化且标注准确的数据集的获取难题,以支持模型的有效学习和优化。
- 挑战
- 数据方面
- 高质量且多样化的医疗数据集有限,难以满足模型全面训练需求,影响对复杂罕见病症的理解与处理能力。
- 患者数据隐私问题突出,数据共享与使用受限,阻碍模型在多机构数据上的联合训练。
- 评估方面
- 传统指标难以捕捉临床语言的细微差异,在评估医疗报告准确性和开放性问题回答时存在局限性。
- 缺乏专门针对医疗任务(如报告生成和视觉问答)的有效评估指标,难以全面衡量模型性能、泛化能力、效率和鲁棒性。
- 模型性能方面
- 生成性 VLMs 可能产生幻觉,输出与图像或医学知识不符,影响诊断和治疗建议的可靠性。
- 模型在学习新任务或知识时可能发生灾难性遗忘,损害对先前知识的掌握和整体性能。
- 临床应用方面
- 医疗专业人员与 AI 系统的有效协作机制尚不完善,需要建立更紧密、互信的合作关系。
- 模型在临床环境中的验证和实际应用面临诸多障碍,如伦理考量、法规遵从等。
- 数据方面
- 创新点
- 系统综述了医疗领域 VLMs 的最新进展,涵盖模型架构、训练策略、下游任务、数据集和评估指标等多方面,为该领域研究提供全面整合的视角。
- 深入分析多种新型模型架构(如单流与双流、编码器 - 解码器结构)和训练方法(如迁移学习、课程学习、自监督学习等)在医疗场景中的应用特点和优势。
- 强调并探索了如检索增强生成(RAG)、参数高效微调(PEFT)等新兴技术在医疗 VLMs 中的潜力,以应对数据和计算资源限制。
- 关注模型在临床实际应用中的挑战,并提出如开发特定评估指标、解决幻觉和灾难性遗忘问题等创新研究方向,促进模型与临床实践的结合。
- 贡献
- 对医疗 VLMs 领域进行全面梳理和总结,为研究人员提供了该领域的清晰现状和发展脉络,有助于把握研究方向。
- 通过详细分析各类模型和方法,为后续医疗 VLMs 的设计、训练和优化提供了理论基础和实践参考。
- 突出了当前面临的挑战并提出未来研究方向,为推动该领域进一步发展,特别是在提高模型临床实用性方面提供了思路和引导。
- 提出的方法
- 模型架构设计
- 单流模型:如 MedViLL,将视觉和文本特征早期融合,提高参数效率,简化模型结构,适用于高效表示学习任务。
- 双流模型:如 PubMedCLIP,分别提取视觉和文本特征后通过多模态融合模块整合,能捕捉复杂跨模态依赖关系,但计算复杂度较高。
- 编码器 - 解码器模型:如 SimVLM,解码器可将联合表示转化为多样化输出,适用于需要生成复杂响应的任务,但计算负载大。
- 训练策略
- 迁移学习:利用预训练模型在特定医疗数据集上微调,如在大规模图像 - 文本数据集预训练后,针对医疗报告生成任务在较小数据集上进行精细调整。
- 课程学习:像 LLaVa - Med 在训练中按难度顺序呈现示例,从简单到复杂逐步学习,增强模型适应性。
- 自监督学习:包括对比学习(如 CLIP 通过对比正负样本来学习表示)、掩码语言建模(如 BERT 中随机掩码文本预测)和掩码图像建模(如 SimMIM 对图像区域掩码预测)等任务,使模型从数据自身结构中学习。
- 参数高效微调(PEFT):如 LoRA 通过微调低秩矩阵适应特定任务,减少参数更新量;Prompt Tuning 和 Prefix Token Tuning 分别通过调整输入提示和前缀向量来优化模型行为。
- 上下文学习策略
- 提示工程:通过添加特定指令(如生成放射学报告的指令)引导模型输出,或利用一系列相关示例和渐进式结构问题提升模型生成能力。
- 检索增强生成(RAG):如 RAMM 和 CXR - RePaiR - Gen,通过信息检索获取相关上下文,增强模型在视觉问答和报告生成任务中的表现,减少对大规模标注数据的依赖。
- 模型架构设计
- 指标
- 报告生成指标
- BLEU(双语评估替代指标):衡量生成文本与参考文本在 n - gram 层面的相似度,考虑精确率、召回率和简洁性惩罚因子,评估生成报告与人工编写报告的一致性。
- ROUGE(面向召回率的摘要评估指标):通过计算生成文本与参考文本在 n - gram 或最长公共子序列上的重叠比例,评估文本生成质量。
- METEOR(具有明确排序的翻译评估指标):综合考虑生成文本与参考文本的精确率、召回率及文本流畅性和语义相似性,对生成报告的质量进行评估。
- Perplexity(困惑度):衡量模型预测文本中每个单词的不确定性,反映模型对语言模式的捕捉能力,值越低表示模型越准确自信。
- BERTScore:利用 BERT 模型的词嵌入计算生成文本与参考文本的相似度,评估生成报告的质量。
- RadGraph F1:通过将报告映射为图结构,衡量生成报告与参考报告在临床实体和关系上的重叠程度,评估模型在临床知识提取和表示方面的性能。
- 临床疗效指标(准确率、精确率、召回率、F1 分数):基于分类任务的评估指标,将报告生成视为分类任务,通过 CheXpert 或 CheXbert 标签器标注的诊断标签评估模型预测的准确性。
- 视觉问答指标
- 准确率:计算模型回答正确的问题占总问题数的比例,直观反映模型整体正确性。
- 精确匹配率:衡量生成答案与正确答案完全匹配(不考虑标点)的比例,对封闭式问题评估较严格。
- 人类评估:通过医疗专家对模型回答进行主观评分(如 0 - 10 分),评估模型在视觉问答任务中的性能,能考虑语义理解、临床相关性等多方面因素。
- 报告生成指标
- 模型结构
- 视觉编码部分
- 卷积神经网络(CNNs):如 ResNet、DenseNet、EfficientNet 等,通过卷积层、池化层和全连接层提取图像特征,有效捕捉图像局部模式和层次结构。
- 视觉 Transformer(ViTs):将图像划分为小块并视为序列,利用 Transformer 架构处理,引入特殊标记捕捉全局信息,在某些任务中表现优异。
- 文本编码部分
- 词嵌入技术:如 Word2Vec、GloVe、FastText 等,将文本转化为数值向量,捕捉词间语义关系,部分方法还考虑子词信息或专门针对生物医学术语优化。
- 循环神经网络(RNNs)及其变体(LSTM、GRU):用于处理文本序列数据,通过循环结构建模序列依赖性,但存在梯度消失问题(LSTM 和 GRU 有所缓解)。
- Transformer 模型:基于自注意力机制,能有效捕捉文本序列中的长距离依赖关系,广泛应用于文本编码和解码,包括编码器 - 解码器结构(如 BERT、GPT 等模型)。
- 多模态融合部分
- 单流模型融合方式:直接将视觉和文本特征向量连接,输入统一模块(如基于 Transformer 的模块)进行联合处理。
- 双流模型融合方式:视觉和文本特征分别通过预训练的编码器(如 CNN 或 Transformer - based text encoder)提取后,利用注意力机制或其他融合策略在多模态融合模块中整合。
- 视觉编码部分
- 结论
- 医疗 VLMs 在处理多模态医疗数据方面取得显著进展,多种模型和方法被提出并在医疗报告生成和视觉问答等任务中展现出一定性能。
- 不同模型架构(单流、双流、编码器 - 解码器)和训练策略(迁移学习、自监督学习等)各有优劣,适用于不同医疗应用场景和任务需求。
- 医疗数据集的多样性和规模对模型性能至关重要,同时模型评估指标需要进一步完善以准确衡量模型在医疗领域的有效性。
- 尽管取得进展,但仍面临数据、评估、模型性能和临床应用等多方面挑战,需通过创新方法和跨领域合作解决。
- 剩余挑战和未来工作
- 数据相关
- 继续扩充和完善医疗数据集,涵盖更多病症、成像模态和临床场景,提高数据多样性和代表性。
- 研究更有效的数据标注方法,降低标注成本并提高标注质量,同时探索利用弱监督或无监督学习方法利用未标注数据。
- 深入探索联邦学习等隐私保护技术在医疗数据上的应用,实现多机构数据共享与联合训练,同时确保数据安全和隐私。
- 评估相关
- 开发专门针对医疗领域的评估指标,尤其注重对临床语言理解、推理能力和实际临床应用价值的评估。
- 建立更全面、标准化的评估框架,综合考虑模型性能、泛化能力、可解释性、安全性等多方面因素。
- 模型性能相关
- 进一步研究减少生成性模型幻觉的方法,如改进训练算法、增加约束条件或引入外部知识验证。
- 探索更有效的持续学习和灾难性遗忘解决策略,使模型能在不断学习新任务和知识过程中保持稳定性和性能。
- 临床应用相关
- 加强医学专家与 AI 研究人员的合作,建立紧密的沟通和协作机制,确保模型符合临床需求和工作流程。
- 开展更多临床验证研究,评估模型在真实临床环境中的有效性、安全性和可靠性,推动模型从研究到实际应用的转化。
- 数据相关
- 数据集
- 放射学相关数据集
- ROCO:包含从 PubMed Central 提取的图像 - 文本对,分为放射学和非放射学类别,用于多种视觉语言任务的预训练和评估。
- MIMIC - CXR:包含大量胸部 X 射线图像及相关自由文本报告,广泛应用于胸部疾病相关研究和模型训练。
- MIMIC - CXR - JPG:是 MIMIC - CXR 的预处理版本,图像转换为 JPG 格式并带有病理标签,便于模型训练和分析。
- IU - Xray(Open - I):由印第安纳大学医院系统的胸部 X 射线图像及报告组成,报告带有手动标注的临床信息,用于多种医疗图像分析任务。
- MS - CXR:包含胸部 X 射线图像的边界框标注及放射学发现,用于涉及肺部疾病定位和诊断的研究。
- 手术视频相关数据集
- EndoVis 2017 和 EndoVis 2018:分别包含来自 MICCAI 手术视觉挑战赛的手术视频及相关问答对,用于手术场景下的视觉问答和视觉语言理解研究。
- 病理学相关数据集
- PathVQA:包含病理学书籍和数字图书馆中的病理图像及问答对,主要用于病理图像的视觉问答任务。
- 综合医学数据集
- MedICaT:包含大量医学图像、标题及文本参考,整合了多种来源数据,用于视觉语言模型的预训练和微调。
- PMC - OA:由 PubMed Central Open Access 中的图像 - 文本对组成,涵盖多种诊断程序和疾病,为模型提供广泛的医学知识学习资源。
- SLAKE:是中英文双语数据集,包含多种疾病和器官的图像及丰富标注信息(如视觉标注、问答对和知识三元组),用于医学视觉问答和知识增强学习。
- 视觉问答专用数据集
- VQA - RAD:包含多种医学图像(如 CT、MRI、X 射线等)及详细问答对,专注于放射学领域的视觉问答任务,问题类型多样。
- VQA - Med 2019、VQA - Med 2020 和 VQA - Med 2021:包含放射学图像及相关问题,用于评估模型在医学视觉问答任务中的性能,问题涵盖不同方面,且部分包含视觉问题生成任务相关数据。
- 放射学相关数据集
抽象
医学视觉语言模型(VLMs)结合了计算机视觉(CV)和自然语言处理(NLP)来分析视觉和文本医学数据。我们的论文回顾了开发专门用于医疗保健的 VLMs 的最新进展,重点关注为医学报告生成和视觉问答(VQA)设计的模型。我们提供了 NLP 和 CV 的背景,解释了如何将这两个领域的技术集成到 VLMs 中,以实现从多模态数据中学习。我们解决的关键领域包括探索医学视觉语言数据集,深入分析最近值得注意的医学 VLMs 中采用的架构和预训练策略,以及全面讨论评估 VLMs 在医学报告生成和 VQA 中的性能的评估指标。我们还强调了当前的挑战并提出了未来的方向,包括提高临床有效性和解决患者隐私问题。总体而言,我们的评论总结了开发 VLMs 以利用多模态医学数据改进医疗保健应用的最新进展。
1 介绍
过去十年见证了人工智能(AI)和机器学习(ML)的巨大进步,包括基础模型(FM)、大语言模型(LLM)和视觉语言模型(VLM)的发展。这些 AI/ML 的发展已经开始改变我们日常生活的几个方面,包括医疗保健。AI/ML 可以通过显著优化和改进疾病筛查和诊断程序、治疗计划以及治疗后监测和护理来潜在地改变整个医疗保健连续体 [Baj+21]。各种计算机视觉(CV)和自然语言处理(NLP)模型,以及最近的 LLM,在推动这一变革趋势方面发挥了重要作用 [He+23;Zao+23a]。CV 模型已经针对各种筛查和诊断用例进行了训练和验证,利用来自 X 射线、乳房 X 线照片、磁共振成像(MRI)、计算机断层扫描(CT)等的放射学数据。最近,专注于使用组织病理学和 immunohistochemistry 数据的数字病理学的 AI 模型在准确的疾病诊断、预后和生物标志物识别方面也显示出重大进展 [Waq+23b]。另一方面,通过使用医学文献、临床笔记和其他医疗保健相关文本的大型数据集训练模型,LLM 可以高效地从电子健康记录(EHR)中提取见解,协助医疗从业者生成简明的摘要报告,并促进患者信息的解释。此类 LLM 值得注意的例子包括 GatorTron [燕 + 22]、Chat 医生 [Li+23c]、Med-PaLM(医学路径语言模型)[Sin+23] 和 Med-Alpacka [Han+23]。
医疗保健数据本质上是多模态的,因此,人工智能 / 机器学习模型通常需要使用多种数据模式进行训练,包括文本(例如,临床记录、放射学报告、手术病理报告等)、成像(例如,放射学扫描、数字化组织病理学幻灯片、等)和表格数据(例如,数字数据,如生命体征或实验室和分类数据,如种族、性别和其他)[Aco+22; Shr+23;Waq+23a;Tri+23;Moh23]。在常规临床实践中,医疗从业者利用这些数据模式的组合来诊断和治疗各种疾病。整合来自不同数据模式的信息提高了疾病评估、诊断、治疗计划和治疗后监测的准确性和彻底性。AI/ML 模型需要摄取、集成和学习来自不同数据源的信息,这是多模态学习的驱动力 [华 + 21;Waq+23a]。
视觉语言模型(VLM)[Gan+22; Che+23;Moh23] 的发展推动了多模态学习的最新进展。这些前沿模型可以分析、解释和从视觉和文本数据中获得洞察力。在医学领域,这些模型有助于对患者信息进行更全面的理解,并提高 ML 模型在各种临床任务中的性能。其中许多模型,如 CLIP(对比语言 - 图像预训练)[Rad+21]、LLaVa(大型语言和视觉助手)[Liu+23b] 和 Flamingo [Ala+22],都是通过对广泛的医学数据集进行训练,为医疗保健领域量身定制的。将 VLM 用于医学视觉问答 [Lin+23b] 尤其值得注意,它使医疗从业者能够对医学图像提出查询,如 CT 扫描、核磁共振成像、乳房 X 光造影、超声波、X 光等。问答功能提升了医疗保健中人工智能 / 机器学习模型的交互性,促进了医疗保健提供者和人工智能系统之间的动态和信息交流。此外,将虚拟现实用于医疗报告生成使它们能够通过合并来自视觉和文本来源的信息来生成详细和上下文相关的报告。这不仅简化了留档过程,还确保生成的报告全面且准确地反映了数据中的细微之处,进一步提高了医疗保健工作流程的效率。
与之前的相关调查 [Lin+23b;TLZ23;Shr+23] 相比,本综述侧重于为医学报告生成和视觉问答量身定制的 VLM 的最新进展。本综述的总体结构如图 1 所示,概述如下。在第 2 节中,我们提供了关于神经网络、CV 和 NLP 的基本背景。在第 3 节中,我们深入探讨了 VLM 的架构、培训策略和下游任务。第 2 节和第 3 节的目标是确保读者可以访问本综述,无论他们的 ML 背景如何。我们将第 4 节分为三个关键子部分。在第 4.1 节中,我们描述了 17 个公开可用的视觉语言数据集。这些数据集包括与医学图像相关的医学图像 - 文本对或问答对。接下来,在第 4.2 节中,我们仔细概述了在报告生成和可视化问答任务的背景下用于评估 VLM 的指标及其公式(如果适用)。在第 4.3 节中,我们对 15 个最近的医学 VLM 进行了彻底的审查,其中 14 个是公开的。据我们所知,这些模型中的大多数在之前的任何调查中都没有被审查过。最后,在第 5 节中,我们讨论了医学 VLM 领域当前的挑战,提供了对可能深刻影响其未来发展的潜在研究方向的见解。医学 VLM 和数据集的列表也可以在 GitHub 上找到。
2 机器学习(ML)- 简要回顾
2.1 神经网络(NN)
机器学习和人工智能,正如我们今天所理解的,在 20 世纪 40 年代末和 50 年代初开始形成 [Bal21]。神经网络作为经典的机器学习模型脱颖而出,从人脑的结构和功能中汲取灵感。它们由排列的相互连接的节点或神经元层组成分为输入层、输出层和称为隐藏层的多个中间层。基本的 NN 是一个 “前馈 NN”,其中神经元可以以这样一种方式编号,即当且仅当[Bal21] 时,从神经元 i 到神经元 j 的连接才能存在。在任何 NN 中,节点之间的连接都具有权重,神经元在其输入上利用 “激活函数”。激活函数通过向模型引入非线性而发挥着至关重要的作用,使其能够学习输入和输出之间的复杂非线性映射。常见的激活函数包括 sigmoid、双曲正切(tanh)和整流线性单元(ReLU)。NN 利用损失函数来量化预测输出和实际目标之间的差异。损失函数产生一个标量值,训练期间的目标是最小化这个损失值。
反向传播,误差反向传播的缩写,是训练深度神经网络的关键算法。在反向传播期间,输入数据通过网络馈送,生成预测,并使用损失函数计算标量损失值。在反向传播期间,我们计算损失函数相对于网络权重的梯度。然后使用此梯度信息来更新权重,以努力最小化预测值和目标值之间的差异。反向传播是计算导数的链式规则的应用 [Bal21]。在反向传播之后,优化算法采用这些梯度并调整 NN 的可学习参数(权重和偏差),这反过来将导致下一批中损失值的最小化。常见的优化方法包括梯度下降、随机梯度下降(SGD)、[Rob51]、Adam(自适应矩估计 [KB14] 等。
2.2 自然语言处理(NLP)
NLP 是使用计算方法对语言数据进行分析,最常见的形式是文本数据,例如文档或出版物 [VC13]。NLP 包含各种旨在
理解、处理和生成人类语言。命名实体识别(NER)是一项突出的 NLP 任务,专注于识别和分类文本中的实体,例如个人姓名、医疗状况等。例如,在医学文献中,NER 可以帮助从文档中提取关键信息。NLP 中的文本摘要被广泛用于生成冗长文本的连贯摘要。情感分析是一项确定给定文本中表达的情感基调的任务,为社交媒体舆情监控或客户反馈分析等应用提供有价值的见解。机器翻译是通过自动将文本从一种语言翻译成另一种语言来打破语言障碍的一项基本 NLP 任务。NLP 中的问答旨在理解和响应用户查询,推动虚拟助手和信息检索的进步。
2.2.1 标记化
NLP 的第一步是标记化,这是将句子和单词拆分或碎片化为它们可能的最小词素的机制,称为标记。词素是最小的可能单词,之后它不能被进一步打破 [RB21]。单词级标记化方法的一个例子是空格标记化,它根据空格字符分割文本。在许多 NLP 应用程序中,子单词标记化方法是首选,因为它们在处理词汇表外单词方面的有效性。WordPiece [Wu+16] 首先将每个字符视为一个标记,创建一个初始词汇表。采用灵活和自适应的合并策略,WordPiece 考虑任何一对相邻字符或子单词单元,这些字符或子单词单元增强了训练数据的整体可能性。这种可能性反映了模型在给定其当前状态的情况下准确表示训练数据的概率。相比之下,字节对编码(BPE)[SHB16] 与 WordPiece 有相似之处,但坚持更具确定性的合并策略。在每次迭代中,BPE 合并最频繁的相邻字符或子单词单元对,朝着预定义的词汇表大小前进。字节级 BPE [WCG20] 以更精细的颗粒度运行,考虑单个字节而不是字符。字节级 BPE 将子单词标记化的概念扩展到字节,允许它在字节级别捕获更细微的模式。
2.2.2 令牌嵌入
然后,标记通常被转换为捕获标记之间语义关系的数字向量,称为单词或标记嵌入。Word2Vec [Mik+13a] 是一种广泛使用的词嵌入技术,它使用两种模型:Skip-Gram [Mik+13a] 和连续词袋(CBOW)[Mik+13b]。在 skip-gram 中,模型预测给定目标词的上下文词,捕获语义关联。相反,CBOW 根据其上下文预测目标词,强调句法结构。在这两种模型中,“上下文词” 指的是目标词周围指定窗口内的词,“目标词” 是对其进行预测的词。Word2Vec 计算效率高,非常适合大型数据集和通用应用程序。全局向量(GloVe)[PSM14] 是一种词嵌入模型,通过捕获全局语义关系来区分自己。它专注于整个语料库,而不是局部上下文窗口。该模型基于单词对的全局统计数据构建共现矩阵,然后采用目标函数生成反映共现概率比率的单词向量。GloVe 使用隐式跳过图方法,全局捕获单词关系,使其非常适合需要全面理解单词连接的任务。FastText [Boj+17] 是另一种词嵌入,对于处理词汇量不足的单词和形态丰富的语言特别有效。它采用子词方法,打破了
将单词转换为 n-gram,并采用类似于 Word2Vec [Mik+13a] 的跳过 - gram 训练方法来学习这些子单词单元的嵌入。还有为更好地表示生物医学和临床术语而量身定制的单词嵌入。在单词顺序不是必需的任务中,其他特征提取技术可以有效,例如文本分类中的词袋(BoW)或用于信息检索的术语频率逆文档频率(tf-idf)。
除了通用词嵌入之外,还有一些专为生物医学和临床术语设计的词嵌入。BioWordVec [zha+19] 将 MeSH(医学主题标题)术语与 PubMed 摘要中的文本结合起来,并采用 Fast Text [Boj+17] 算法来学习改进的生物医学词嵌入。另一个突出的方法是 Cui2vec [Bea+20],它利用来自医学出版物和临床笔记的各种多模态数据。Cui2vec 系统地将医学术语映射到一个通用的概念唯一标识符(CUI)空间,然后构建一个共现矩阵。该矩阵捕获不同 CUI 一起出现的实例,这是使用 GloVe [PSM14] 或 Word2Vec [Mik+13a] 等技术生成词嵌入的基础。在大多数情况下,添加位置编码以捕获序列中标记的顺序是很常见的。位置编码向量,通常基于正弦函数,系统地编码令牌位置,使用位置信息丰富嵌入,以便在为特定 NLP 任务量身定制的 ML 模型中使用 [Ahm+23]。
2.2.3 循环神经网络
RNN 被广泛用于序列数据中的模式检测,包括各种类型,如基因组序列、文本或数字时间序列 [Sch19]。RNN 基于保留记忆形式的原理,通过将特定层的输出循环回输入来整合循环结构,从而促进对后续层输出的预测。这种机制使 RNN 能够熟练地对序列和时间依赖关系进行建模,捕获隐藏状态中先前时间步的信息。尽管它们能够保留来自过去输入的信息,但由于梯度消失问题,RNN 在保留输入序列中的长期依赖关系方面遇到了挑战。为了解决这个问题,一些 RNN 变体,包括长短期记忆(LSTM)[HS97] 和门控循环单元(GRU)[Cho+14] 网络,已经被设计成增强它们捕获和利用序列数据中的长期依赖关系的能力。
2.2.4 变形金刚
近年来,NLP 取得了显著的进步,这主要归功于 Transform 模型的发展 [Vas+17]。除了结合嵌入和位置编码之外,Transform 架构还包括一个编码器,该编码器处理输入数据,输入数据由从嵌入和位置编码标记中获得的向量表示。编码器生成的表示作为后续解码器的输入,解码器将这些向量表示转换为针对手头特定任务量身定制的相关输出。Transform 的一个决定性特征在于它的自我注意力机制,特别是缩放的点积注意力,它在捕获序列中复杂的依赖关系方面发挥了重要作用。编码器和解码器都采用了这种机制,在注意力过程中利用查询和键。查询充当输入序列的投影,封装用于关注其他位置的信息,而键代表序列中的位置。通过并行化的多头注意力增强,自注意力机制使模型能够动态权衡输入序列的不同部分,培养对上下文关系的细致入微的理解。编码器和解码器中的每一层都包含子层,包括前馈 NN、毛皮
进一步增强了模型捕捉数据中复杂模式的能力。在实践中,变形金刚在有效处理长序列方面面临限制,并且在考虑序列中的所有位置时,对相关信息的选择性较低。已经提出了各种技术来解决这些问题。其中一种方法被称为分层注意力 [燕 + 16],通过最初在单词级别计算注意力,然后在句子级别计算注意力,战略性地降低了计算复杂性并增强了上下文敏感性。注意力算法的另一个显着进步是 Flash 注意力 [道 + 22] 和 FlashStey-2 [道 23],旨在显着加速注意力计算。
图形处理单元(GPU)提供的增强计算能力与注意力机制的进步之间的协同作用在大型语言模型(LLM)的开发中发挥了关键作用。这些模型在具有大量参数的庞大数据集上进行了精心训练。初始 LLM 包括但不限于 BERT(来自变压器的双向编码器表示)[Dev+19](包含 235 M 参数的最大版本)、ALBERT(A Lite BERT)[LAN+19](12 M 参数的最大变体)和 Megatron-LM [Sho+19](具有 1.2 B 参数的最大版本)。更大的 LLM 时代始于 2020 年,引入了 GPT-3(3 代生成预训练变压器)[Bro+20](175 B 参数)和 PaLM(路径语言模型)[Cho+22](540 B 参数)等模型。一些最新的 LLM 是 LLaMA(大型语言模型元人工智能)[Tou+23b]、Vicuna [Chi+23]、Llama 2 [Tou+23a] 和 Mistral [贾 + 23]。请注意,仅编码器的 LLM 可用于生成令牌嵌入(例如,BERT [Dev+19] 或 GatorTron [Yan+22])。
2.3 计算机视觉(CV)
CV 涉及从他们的图像或视频中解释和理解世界 [Ji20]。CV 中的数据被编码为表示像素强度或亮度的数值。图像或视频帧中的边缘、纹理和对象等视觉模式的提取作为各种 CV 任务的构建块。图像分类是为整个图像分配标签的任务,确定主要对象或场景。对象检测涉及识别和定位图像中的多个对象,提供标签和边界框。图像分割将图像划分为有意义的片段,为每个像素分配标签并概述不同对象或区域的边界。这些任务使用了各种 ML 技术和模型 [Mah+22]。
2.3.1 卷积神经网络
CNN 代表了 CV [Yam+18] 的重大进步。除了池化和全连接层之外,CNN 还具有卷积层,它们将卷积操作应用于输入数据。在卷积操作期间,一个小过滤器或内核在输入数据上滑动。在每个位置,过滤器与输入的局部区域执行元素级乘法。然后将这些乘法的结果相加,在输出特征图中创建一个新值。这个过程在整个输入中重复,在不同的空间位置捕获模式和特征。众所周知的 CNN 包括残差网络(ResNet)[He+16]、密集卷积网络(DenseNet)[华 + 22]、高效网络(高效网络)[TL20] 等等。
2.3.2 视觉变压器
最初为 NLP 任务提出的转换器模型也在 CV 中找到了有价值的应用。例如,ViT 模型 [Dos+21] 可以捕获整个图像中复杂的关系和依赖关系。这是通过利用变压器架构来实现的
并将图像视为较小补丁的序列。每个图像补丁都经历了扁平化为向量的过程,然后通过嵌入层。嵌入层丰富了扁平化的图像补丁,提供了更具表现力和连续性的表示。接下来,位置编码被纳入嵌入,传达有关图像补丁空间排列的信息。ViTs 的一个显着特点是引入了一种特殊的令牌,旨在捕获有关整个图像的全局信息。这种特殊令牌具有相关的可学习令牌嵌入,由具有其唯一参数集的向量表示。ViTs 在语义分割 [RBK21]、异常检测 [Mis+21]、医学图像分类 [Man+23] 方面取得了显着的成功,甚至在某些情况下优于 CNN [Tya+21;辛 + 22]。
3 个视觉语言模型(VLM)
许多现实世界的情况本质上涉及各种数据模式。例如,自动驾驶汽车必须处理来自摄像头、雷达、激光雷达和 / 或全球定位系统等各种传感器的信息,以确保安全有效的导航 [Par+22]。类似地,在癌症护理中,放射学图像与基因组数据、数字化组织病理学切片和临床报告的融合有可能改善诊断、治疗计划和治疗后监测 [Boe+21;Waq+23a;Moh23]。这推动了 VLM 的发展,它可以同时处理和理解 NLP 和 CV 数据。
3.1 模型架构
3.1.1 单流 VLM 与双流 VLM
根据不同的数据模式在 VLM 中融合在一起的方式,它们通常分为两组 [Che+23]:(1)单流(例如,VisualBERT [Li+19] 和联合或统一图像 - TExt 表示学习 [Che+20b]),以及(2)双流模型(例如,ViLBERT 视觉和语言 BERT [Lu+19] 和 CLIP 或对比语言 - 图像预训练 [Rad+21])。
单流模型单流 VLM 采用高效的架构在统一模块内处理视觉和文本信息。这种架构结合了不同数据模式的早期融合,其中来自不同数据源的特征向量被连接成一个向量(例如 MedViLL [Moo+22])。随后,这种组合表示被馈送到单个流中。单流设计的一个显着优势是其参数效率,通过对所有模式使用相同的参数集来实现。这不仅简化了模型,而且有助于在训练和推理阶段提高计算效率 [Che+23]。
双流模型双流 VLM 在不共享参数的并行流中分别提取视觉和文本表示。这种架构通常比单流架构具有更高的计算复杂度。视觉特征是从预训练的视觉编码器(如 CNN 或 ViT)生成的,文本特征是从预训练的文本编码器中获得的,通常基于变压器架构(例如 PubMedCLIP [EMD23])。然后将这两个特征输入多模态融合模块,通常利用注意力机制,以整合来自两种数据模式的信息并学习跨模态表示。这种后期融合方法允许视觉和文本信息之间更复杂的交互,
使模型能够捕获复杂的跨模态依赖关系。然而,与单流架构相比,它的代价是计算复杂性增加。
3.1.2 编码器与编码器 - 解码器 VM
学习到的跨模态表示可以在产生最终输出之前由解码器进行可选处理。因此,VLM 分为两组:(1)仅编码器(例如,ALIGN(大规模 ImaGe 和噪声文本嵌入)[佳 + 21])和(2)编码器 - 解码器模型(例如,SimVLM(简单视觉语言模型)[万 + 22c])。
纯编码器模型这些模型在主要目标是有效表示学习的场景中是有利的。它们通常表现出简化的处理和降低的计算复杂性,使它们适用于需要紧凑和信息丰富的表示的任务。然而,这些模型可能缺乏生成复杂和详细输出的能力,限制了它们在需要细微反应或创造性生成的任务中的使用。
编码器 - 解码器模型这些模型提供了生成复杂多样输出的灵活性,使其非常适合图像字幕、翻译或任何需要创造性响应的应用程序等任务。解码步骤允许将联合表示转换为有意义的输出。然而,这种多功能性是以增加计算负载和复杂性为代价的。
3.2 模型训练
3.2.1 迁移学习
ML 中普遍采用的策略是采用预先训练的模型,并根据特定的下游任务对其进行定制 —— 这种方法通常称为迁移学习。这个过程通常涉及使用较小的特定任务数据集微调模型的参数,以解决目标任务的复杂性 [Bom+22]。迁移学习也可以被认为是在另一个任务上使用一组已经优化的参数开始对任务进行参数优化的过程,而不是使用随机初始化。迁移学习可能涉及对原始模型架构的一些修改。这可以包括对最终层的修改或引入新层,例如分类或回归层,以满足手头任务的特定要求 [Bom+22]。基本思想是使预训练模型适应新任务的细节,同时保留它在初始预训练期间获得的知识。
3.2.2 课程学习
课程学习在处理表现出自然进展或层次结构的任务或数据时提出了一种创新方法。这种方法涉及以设计的顺序战略性地呈现训练示例或任务,通常基于难度或复杂性度量 [Sov+21]。最近的医学 VLM LLaVa-Med [Li+23a] 在其训练阶段采用课程学习。这允许模型逐步学习,从更简单的示例开始,然后发展到更复杂的示例。这种协调一致的学习顺序增强了模型的适应性和性能。
3.2.3 自我监督学习(SSL)
SSL 是训练 VLM 的基本范式,通过允许模型从数据中生成自己的标签 [Ran+23a],为传统监督学习提供了一个强大的替代方案。当获取大量标记数据具有挑战性或昂贵时,这尤其有益。在 VLM 的自监督学习中,模型制定了利用数据内固有结构的任务,使它们能够在没有显式外部标签的情况下跨模式学习有意义的表示。对比学习、掩蔽语言建模和掩蔽图像建模(在以下小节中描述)是自监督学习任务的示例。
3.2.4 预培训流程和任务
预训练过程在使 VLM 对视觉和文本数据之间复杂的相互作用有基础理解方面发挥着关键作用。一种流行的策略包括对图像 / 视频与其相应的文本描述配对的数据集进行密集的预训练。在预训练期间,各种任务指导模型学习下游任务的多功能表示。
对比学习(CL)CL 通过对比视觉和文本数据的正对和负对来鼓励模型学习有意义的表示 [Li+21]。在 CL 期间,模型被训练以将正对和负对映射到共享嵌入空间中。正对由视觉和文本内容相关的示例组成,例如与其对应的文本描述配对的图像。相反,负对由视觉和文本内容不相关的示例组成,例如与随机选择的不同文本描述配对的图像。目标是使正对更紧密地结合在一起,同时在共享嵌入空间中将负对推得更远。采用各种对比损失函数来实现这一目标,其中 InfoNCE(噪声对比估计)损失 [OLV19] 是一个常见的选择。InfoNCE 制定了一个概率任务,其中训练模型以最大化观察到正对的可能性并最小化观察到负对的可能性。正对的负对数似然被用作损失。CLIP [Rad+21] 使用具有余弦相似度的 InfoNCE 损失。另一方面,ALIGN [贾 + 21] 使用归一化的 softmax 损失。这种损失计算正负对的归一化嵌入之间的余弦相似度上的 softmax,旨在提高正相似度,同时减少负相似度。
掩码语言建模(MLM)MLM 是 NLP [Tay53] 中广泛使用的任务。它首先被引入并应用于 BERT 模型 [Dev+19]。MLM 涉及在文本数据中随机选择一定比例的标记,并用一个特殊的标记替换它们,通常表示为 MASK。该模型通过考虑它们两侧的上下文来预测这些掩码标记,从而允许模型掌握细微的上下文信息。UniER [Che+20b] 和 VisualBERT [Li+19] 等 VLM 利用 MLM 进行预训练。
掩蔽图像建模(MIM)将 MLM 的思想扩展到图像产生了 MIM [谢 + 22]。在 MIM 中,某些补丁被掩蔽,促使模型预测掩蔽区域的内容。这个过程使模型能够从整个图像中绘制上下文,鼓励本地和全局视觉特征的集成。像联合利华 [Che+20b] 和 ViLBERT [Lu+19] 这样的 VLM 利用 MIM 来增强性能。交叉熵损失被用于 MLM 和 MIM 任务中,以测量预测概率和实际概率之间的差异
掩蔽元素的分布。此外,MLM 可以与 MIM 相结合,允许在另一种模式的支持下以一种模式重建掩蔽信号 [Kwo+23]。
图像 - 文本匹配(ITM)ITM 是另一个常见的视觉语言预训练任务。在整个训练过程中,模型学习将图像和相应的文本描述映射到共享语义空间中,其中紧密对齐的向量表示两种模式中的相似内容。在单流 VLM 中,特殊标记 [CLS] 表示两种模式的联合表示。相比之下,在双流 VLM 中,[CLS] V 和的视觉和文本表示被连接起来。这种联合表示被馈送到一个全连接的层,然后是 sigmoid 函数,预测指示匹配或不匹配的分数 [Che+23]。像 CLIP [Rad+21]、ALBEF(ALign the image and text 表示 BE Fuse)[Li+21] 和 METER [Dou+22] 这样的模型在预训练期间利用 ITM。
组合多个任务在 VLM 预训练中,多个任务通常组合在一个统一的框架中,允许模型跨模态掌握细微差别的上下文信息。最终损失函数可以结合对比损失、用于掩蔽令牌预测的交叉熵损失以及其他特定任务的损失。这种全面的预训练方法为 VLM 配备了针对不同下游任务的多功能表示。例如,ALBEF [Li+21] 采用了包含三个任务的全面预训练目标:CL、MLM 和 ITM。然后将整体损失计算为这些单独组件的总和。
3.2.5 微调技术
在培训之后,一种常见的做法是在针对特定下游任务量身定制的较小数据集上微调 VM。
监督微调(SFT)在使用 SFT 之前,VLM 在广泛的图像 - 文本数据集上进行预训练,建立对视觉和文本表示之间复杂关系的基本理解。SFT 涉及对更集中的数据集进行细致的微调,以匹配目标应用程序的细微差别。这种包含广泛预训练和特定任务微调的双阶段策略使模型能够从大规模泛化中受益,同时无缝适应特定应用程序的复杂性 [Ouy+22]。
来自人类反馈的强化学习(RLHF)RLHF 是一种独特的微调方法,通过在微调过程中结合人类偏好来增强 VLM [Ouy+22; Lam+22;Zie+20]。RLHF 从初始模型开始,结合其输出的 Humangenerated 排名来构建详细的奖励模型。与仅依赖环境相互作用的传统强化学习(RL)[SB98;Cor+20] 相比,RLHF 战略性地整合了人类反馈。这种人在环方法提供了一种更加细致入微和专家知情的方法论,允许根据人类偏好微调 VLM,最终导致模型结果的改进。
指令微调(IFT)IFT 是指通过提供针对特定任务或应用程序量身定制的特定指令或指导来细化预训练语言模型的过程 [Ren+24]。该过程通常包括将模型暴露于与所需指令相关的示例或提示,并根据在此特定任务训练阶段收到的反馈更新其参数。Medical VLM, RaDialog [Pel+23] 采用了这种微调技术。
前缀令牌调优将特定于任务的向量添加到输入,特别是称为前缀令牌的初始令牌,以指导给定任务的模型行为 [LL21]。例如,VL-T5 对来自不同数据集 [Cho+21] 的问题使用不同的前缀。这些向量可以独立训练和更新,同时保持剩余的预训练模型参数冻结。前缀令牌调优允许特定于任务的适应,而不会损害模型大多数参数中编码的预训练知识。
3.4 上下文学习
在本节中,我们将探讨仅使用上下文调整 VLM 的策略,保持模型参数(以及 PEFT/LoRA 适配器,如果有的话)冻结。在我们的设置中,上下文学习可以被视为仅使用 LLM 或 VLM 进行推理。
3.4.1 提示工程
提示工程是一种技术,涉及使用特定任务的指令(称为提示)增强大型预训练模型,以针对特定任务定制模型的输出 [顾 + 23]。示例包括指示模型为特定图像(例如 RAMM [Pel+23])生成放射学报告。提示工程还可以将 VLM 暴露给一系列相互关联的示例或提示,引导其获得所需的输出。另一种方法结合了逐步结构化的指令或问题,细化焦点并增强模型生成连贯且上下文相关的响应的能力 [顾 + 23]。
3.4.2 检索增强生成(RAG)
RAG 是一种提示工程形式,涉及战略性地为检索和生成阶段设计提示,允许利用外部知识源来增强生成任务的自适应和高效过程。虽然 RAG 的原始概念是在 NLP [Lew+20] 的背景下开发的,但检索和生成背后的原则可以扩展到多模态学习 [Za+23d],包括 VLM。RAG 已在医学 VLM 中用于 VQA(例如 RAMM [Yua+23])和 RG(例如 CXR-RePaiR-Gen [Ran+23b])等任务。RAG 从检索组件开始,该组件通常是为信息检索设计的预训练模型。这个多功能组件擅长从广泛的数据集中提取相关信息,当呈现不同的输入时,可以满足图像、文本、代码、视频或音频等各种模式 [Za+23d]。在检索阶段之后,模型返回一组与给定输入相关的上下文。第二个组件是生成性 LLM。该组件获取输入和检索到的上下文并生成最终输出。生成的输出不仅取决于输入,还取决于从检索到的上下文中提取的信息。RAG 的一个内在优势在于它能够减少对大量标记数据集的依赖。虽然基本模型通常在 RAG 期间被冻结,但在某些情况下,如 RAMM [Yua+23] 中所示,模型参数会在过程中更新。
3.5 下游任务
多模式下游任务利用从预训练 VM 中获得的知识,在需要共同理解视觉和文本数据的各种应用程序中脱颖而出。
3.5.1 报告生成(RG)
RG 是典型的医学 VLM 任务的突出示例,该任务以创建视觉数据的全面摘要报告为中心。RG 在自动总结诊断成像结果和减少报告编写工作量方面发挥着至关重要的作用 [MPC20; TLZ23;Moh23]。例如,在放射学中,报告生成系统可以分析一组医学图像,如 X 射线、CT 扫描或 MRIs,并生成详细的报告,总结观察到的异常、它们的位置以及对诊断或治疗的潜在影响 [LTS23]。放射学报告通常有几个部分:(1)检查(检查类型),(2)指示(检查原因),(3)比较(先前的检查),(4)技术(扫描方法)(5)发现(放射科医生进行的详细观察),以及(6)印象(主要发现的总结)[MHC20]。在 RG 的背景下,VLMs 通常被设计为生成结果和印象切片 [Tha+23]。目前,为 RG 量身定制的 VLMs 主要用于放射学图像,在其他医学成像领域的应用较少,如病理学 [SB23]、机器人手术 [徐 + 21] 和眼科 [李 + 22]。
.5.2 视觉问答(VQA)
VQA 是另一个重要的视觉语言理解任务,其中模型需要理解图像或视频以及提出的问题,以提供相关且准确的响应 [Ant+15]。VQA 中遇到的问题范围很广,包括关于特定物体的存在、它们的位置或图像中的独特属性的询问。在医学背景下 [Lin+23b],这可能涉及关于医疗状况或异常存在的问题,例如 “图像中看到了什么异常?”[Ion+21] 或 “胃饱满吗?”[Lau+18]。其他查询可能深入研究细节,如使用的成像方法 [Aba+19]、涉及的器官系统 [Lau+18] 或特定解剖结构的存在 [Liu+21a]。
VQA 中的问题分为两类。开放式问题以短语或句子的形式引发回答,培养详细而细致的答案 [Tha+23]。另一方面,封闭式问题旨在提示有限的回答,通常带有预定的选项,例如多个选项的简短列表、是 / 否回答或数字评分 [Baz+23]。VQA 的任务通常被视为分类任务、生成任务或两者兼而有之 [Lin+23b]。在分类方法中,模型从预定义的集合中选择正确的答案,而在生成任务中,模型产生不受预定义选项约束的自由形式的文本响应。
3.5.3 其他任务
除了 VQA 和 RG,还存在一系列用于视觉语言理解的 VLM 任务 [Che+23]。例如,引用表达理解需要一个模型来定位给定短语或句子引用的图像中的特定区域或对象 [ZNC18]。视觉常识推理包括回答有关图像的问题,通常以选择题格式呈现,并根据模型对图像的理解和常识知识来证明答案 [Zel+19]。视觉语言检索侧重于使用文本数据从图像中生成或检索相关信息,反之亦然,使用视觉数据从文本中获取信息 [Zhe+19]。在视觉字幕的上下文中,模型的作用是生成对图像的简明、基于文本的描述 [SDK23]。值得强调的是,其中一些任务可以从图像无缝过渡到视频,展示了 VLM 在不同视觉环境中的适应性和多功能性 [Gan+22]。
ROCO 是一个数据集,由从开放获取的生物医学文献数据库 PubMed Central(PMC)[Pel+18] 中提取的图像 - 字幕对组成。ROCO 分为两类:放射学和课外。放射学组包括 81,825 张放射学图像,包括计算机
3.5.2 视觉问答(VQA)
VQA 是另一个重要的视觉语言理解任务,其中模型需要理解图像或视频以及提出的问题,以提供相关且准确的响应 [Ant+15]。VQA 中遇到的问题范围很广,包括关于特定物体的存在、它们的位置或图像中的独特属性的询问。在医学背景下 [Lin+23b],这可能涉及关于医疗状况或异常存在的问题,例如 “图像中看到了什么异常?”[Ion+21] 或 “胃饱满吗?”[Lau+18]。其他查询可能深入研究细节,如使用的成像方法 [Aba+19]、涉及的器官系统 [Lau+18] 或特定解剖结构的存在 [Liu+21a]。
VQA 中的问题分为两类。开放式问题以短语或句子的形式引发回答,培养详细而细致的答案 [Tha+23]。另一方面,封闭式问题旨在提示有限的回答,通常带有预定的选项,例如多个选项的简短列表、是 / 否回答或数字评分 [Baz+23]。VQA 的任务通常被视为分类任务、生成任务或两者兼而有之 [Lin+23b]。在分类方法中,模型从预定义的集合中选择正确的答案,而在生成任务中,模型产生不受预定义选项约束的自由形式的文本响应。
3.5.3 其他任务
除了 VQA 和 RG,还存在一系列用于视觉语言理解的 VLM 任务 [Che+23]。例如,引用表达理解需要一个模型来定位给定短语或句子引用的图像中的特定区域或对象 [ZNC18]。视觉常识推理包括回答有关图像的问题,通常以选择题格式呈现,并根据模型对图像的理解和常识知识来证明答案 [Zel+19]。视觉语言检索侧重于使用文本数据从图像中生成或检索相关信息,反之亦然,使用视觉数据从文本中获取信息 [Zhe+19]。在视觉字幕的上下文中,模型的作用是生成对图像的简明、基于文本的描述 [SDK23]。值得强调的是,其中一些任务可以从图像无缝过渡到视频,展示了 VLM 在不同视觉环境中的适应性和多功能性 [Gan+22]。
4 个医疗 VLM
4.1 VLM 的医疗数据集
VLM 对各种医疗任务的适应是通过使用专门的任务特定数据集进行预训练和微调来实现的。以下是公共领域中可用的视觉语言数据集列表,其中包含医学图像 - 文本对或问答(QA)对。它们中的大多数被第 4.3 节中描述的医疗 VLM 用于预训练、微调和评估 VQA 和 RG 任务。这些数据集的比较分析见表 1。表 1 中的最后一列提供了指向网络上数据来源的链接,缩写如下:GH-GitHub、PN-PhysioNet 和 HF - 拥抱脸。
4.1.1 上下文中的放射学对象(ROCO)
ROCO是一个数据集,由从开放获取的生物医学文献数据库PubMed Central(PMC)[Pel+18]中提取的图像-字幕对组成。ROCO分为两类:放射学和课外。放射学组包括81,825张放射学图像,包括计算机
断层扫描(CT)、超声、x 射线、透视、正电子发射断层扫描(PET)、乳房 X 线摄影、磁共振成像(MRI)、血管造影和 PET-CT。课外组有 6,127 张图像,包括合成放射学图像、临床照片、肖像、复合放射学图像和数字艺术。每张图像都附有相应的标题、关键字、统一医学语言系统(UMLS)语义类型(SemTypes)、UMLS 概念唯一标识符(CUIs)和下载链接。为了便于模型训练,数据集被随机拆分为训练集(65,460 个放射学和 4,902 个课外图像)、验证集(8,183 个放射学和 612 个课外图像)和测试集(8,182 个放射学和 613 个课外图像),分别使用 80/10/10 拆分比。
4.1.2 重症监护医疗资讯市场 - 胸部 X 光(MIMIC-CXR)
MIMIC-CXR 收集包括 377,110 张胸部 x 光片,并配有 227,835 份相关的自由文本放射学报告 [・约翰 + 19b]。该数据集来自马萨诸塞州波士顿贝丝以色列女执事医疗中心进行的去识别放射学研究。MIMIC-CXR 数据集中的每个成像研究都由一个或多个图像组成,通常以医学数字成像和通信(DICOM)格式显示侧视图和背对前视图。
4.1.3MIMIC-CXR-JPG
MIMIC-CXR-JPG [Joh+19a] 是 MIMIC-CXR 数据集 [Joh+19b] 的预处理变体。在这个版本中,原始的 377,110 张图像被转换成压缩的 JPG 格式。与这些图像相关的 227,827 份报告中丰富了各种常见病理的标签。这些标签来自对放射学报告的印模、发现或最终部分的分析,通过使用内比奥 [Pen+17] 和切珀特(Chest eXpert)[Irv+19] 工具得到了便利。
4.1.4 模拟 - NLE
MIMIC-NLE 数据集专门设计用于生成自然语言解释(NLE),以证明对医学图像所做的预测是合理的,特别是在胸部病理和胸部 X 光检查的背景下 [Kay+22]。该数据集由 38,003 个图像 - NLE 对或 44,935 个图像 - 诊断 - NLE 三元组组成,确认单个 NLE 可以解释多个诊断的实例。NLE 是从 MIMIC-CXR [Joh+19b] 放射学报告中提取的。该数据集专门考虑从前到后(前后,AP)和后到前(后前,PA)的 X 射线视图。所有 NLE 都带有诊断和证据(用于诊断)标签。该数据集分为包含 37,016 张图像的训练集、包含 273 张图像的测试集和包含 714 张图像的验证集。
4.1.5CXR,省略参考文献(CXR-PRO)
CXR-PRO 数据集源自 MIMIC-CXR [Joh+19b]。该数据集由 374,139 份自由文本放射学报告组成,仅包含印模部分 [RCR22]。它还包含相关的胸部 X 光片;然而,放射学报告和胸部 X 光片不是配对的。该数据集旨在缓解放射学报告生成 ML 模型经常生成的对先前报告的幻觉引用问题。该数据集中省略先前参考旨在为放射学 RG 提供更干净、更可靠的数据集。
4.1.6 印第安纳大学胸部 X 光(IU-Xray)
IU-Xray 数据集,也称为 Open-I 数据集,可通过国家医学图书馆的 Open-i 服务 [Dem+15] 访问。该数据集源自印第安纳患者护理网络数据库中的两个医院系统。该数据集包括 7,470 张 DICOM 胸部 X 光片和 3,955 份相关的放射学报告。这些报告通常包括适应症、发现和印象等部分,并使用 MeSH 和 RadLex(放射学词典)代码手动注释,以表示临床发现和诊断。在整个审查过程中,我们将数据集互换称为 IU-Xray 和 Open-I,与相关文献中使用的命名保持一致。
4.1.7 医学图像、说明和文本参考(MedICaT)
MedICaT 数据集包含来自 131,410 篇开放获取 PMC 论文的 217,060 个数字,这些论文专注于放射学图像和其他医学图像类型 [Sub+20]。不包括来自 ROCO [Pel+18] 的数字,该数据集集成了来自 S2ORC(语义学者开放研究语料库)语料库的内联参考文献,建立了参考文献和相应数字之间的联系。此外,对 ROCO 数字的内联参考文献是单独提供的。MedICaT 还包含 7,507subcaption-subfigure 对,注释来自 2,069 个复合数字。
4.1.8PubMedCentral 的 OpenAccess(PMC-OA)
PMC-OA 数据集包括 1.65 M 图像字幕对,来自 PMC 论文 [林 + 23a]。它包括各种诊断程序,包括常见的诊断程序,如超声波、核磁共振成像、聚酯和放射性同位素,以及更罕见的程序,如有丝分裂和功能磁共振成像。此外,该数据集涵盖了广泛的疾病,诱发白内障、耳部疾病和低视力是最常见的情况。
4.1.9MS-CXR
MS-CXR 数据集包含与放射学发现配对的图像边界框标签,由两名获得委员会认证的放射科医生 [Boe+22] 注释和验证。该数据集由 1,162 个图像 - 文本对边界框和相应的文本描述组成。注释涵盖 8 种不同的心肺放射学发现,并从 MIMIC-CXR [Joh+19b] 和 REFLACX(用于胸部 X 射线异常定位的报告和眼动追踪数据)[Big+22](基于 MIMIC-CXR)数据集中提取。发现包括肺不张、心脏肿大、实变、水肿、肺混浊、胸腔积液、肺炎和气胸。
4.1.10Semantically-Labeled 知识增强(SLAKE)
SLAKE 是一个英汉双语数据集 [Liu+21a]。它包含 642 张图像,包括 12 种疾病和 39 个全身器官。每张图像都精心注释了两种类型的视觉信息:用于语义分割的掩码和用于目标检测的边界框。该数据集包括总共 14,028 个 QA 对,分为纯视觉或基于知识的类型,并相应地标记,包括开放式和封闭式问题。此外,SLAKE 以 < head,关系,尾部 > 的形式包含 5,232 个医学知识三元组,其中头部和尾部表示实体(例如,器官,疾病),关系表示这些实体之间的关系(例如,功能,治疗)。这种三元组的一个说明性例子是 < 肺炎,位置,肺 >。
4.1.11VQA-RAD
VQA-RAD 数据集包含 104 个头部轴向单层 CT 或核磁共振成像、107 个胸部 x 光片和 104 个腹部轴向 CT [Lau+18]。这些图像是从开放的在线医学图像数据库 MedPix 中精心挑选出来的,确保每张图像都对应一个独特的患者。此外,每张选定的图像都有一个相关的标题,并且故意没有任何放射学标记。每个标题都提供了关于成像平面、模式和专家放射科医生生成和审查的结果的详细信息。此外,VQA-RAD 包含 3515 对 QA,每张图像平均有 10 个问题。其中 1515 个是自由形式的问题和答案,允许不受限制的查询。此外,733 对涉及重新措辞的问题和答案,引入了语言多样性。另外 1267 对被框起来,以结构化格式呈现问题,提供一致性和系统评估。此外,QA 对分为 637 个开放式和 878 个封闭式类型。在封闭式组中,主要关注是 / 否问题。
4.1.12 路径
PathVQA 是一个数据集,包含 4998 张病理图像,以及从这些图像中导出的总共 32799 对 QA 对 [He+20]。这些图像来自病理学书籍:“病理学教科书” 和 “基础病理学”,以及数字图书馆 “病理学教育信息资源”。在所有的 QA 对中,16465 对是开放式的,其余的是封闭式的是 / 否类型。平均而言,每个图像与 6.6 个问题相关联,这些问题涵盖了广泛的视觉内容,包括颜色、位置、外观、形状等方面。
4.1.13VQA-Med 2019
VQA-Med 2019 数据集包含从开放的在线医学图像数据库 MedPix 获得的 4,200 张放射学图像和 15,292 个 QA 对 [Aba+19]。训练集由 3,200 张图像和 12,792 个 QA 对组成,每个图像有 3 到 4 个相关问题。验证集包括 500 张图像和 2,000 个 QA 对,测试集包括 500 张图像和 500 个 QA 对。问题主要是关于情态、成像平面、器官系统和异常。
4.1.14VQA-Med 2020
VQA-Med 2020 数据集包含从开放的在线医学图像数据库 MedPix 获得的 5,000 张放射学图像和 5,000 个 QA 对 [Aba+20]。训练集由 4,000 张图像和 4,000 个 QA 对组成。验证集包括 500 张图像和 500 个 QA 对,测试集包括 500 张图像和 500 个 QA 对。问题集中在图像中存在的异常。此外,数据集包含放射学图像和视觉问题生成(VQG)任务的问题。训练集由 780 张图像和 2,156 个相关问题组成。验证集包括 141 张图像和 164 个问题,测试集包括 80 张图像。
4.1.15VQA-Med 2021
VQA-Med 2021 数据集包含从开放的在线医学图像数据库 MedPix 获得的 5,500 张放射学图像和 5,500 个 QA 对 [Ion+21]。训练集由 4,500 张图像和 4,5000 个 QA 对组成。验证集包括 500 张图像和 500 个 QA 对,测试集包括 500 张图像和 500 个 QA 对。问题集中在异常
存在于图像中。与 VQA-Med 2019 类似,该数据集还包含放射学图像和 VQG 任务的问题。验证集包括 85 张图像和 200 个问题,测试集包括 100 张图像。
4.1.16 内窥镜视觉(EndoVis)2017
EndoVis 2017 数据集包含来自 MICCAI(医学图像计算和计算机辅助干预)内窥镜视觉 2017 挑战赛 [All+19] 的 5 个机器人手术视频(两个视频,每个视频 8 帧,一个视频 18 帧,一个视频 14 帧,一个视频 39 帧)。它还包括 472 个带有边界框注释的 QA 对。这些 QA 对经过精心制作,涉及与手术过程相关的特定查询。问题的示例包括诸如 “前夹钳的状态是什么?” 和 “大型针驱动器位于哪里?” 等查询。包含边界框注释增强了数据集对目标检测或答案定位等任务的实用性。
4.1.17EndoVis 2018
EndoVis 2018 数据集包含来自 MICCAI 内窥镜视觉 2018 挑战赛 [All+20] 的 14 个机器人手术视频(总共 2,007 帧)。它还包括 11,783 对关于器官、手术工具和器官 - 工具相互作用的 QA 对。当问题是关于器官 - 工具相互作用时,边界框将包含器官和工具。
4.2 VLM 评估指标
本节深入研究医学 VLM 的评估过程。该过程的启动涉及精心选择基准数据集并定义针对手头特定视觉语言任务量身定制的评估指标。
报告生成的 4.2.1 评估指标
医疗 RG 的常用基准数据集是 MIMIC-CXR [Joh+19b] 和 Open-I [Dem+15]。有关这些数据集的更多信息,请参阅第 4.1 节。几个指标用于评估 VLM 在 RG 任务上的有效性。下面概述了更常用的指标。
双语评估替补(BLEU)BLEU 分数最初是为机器翻译评估而设计的,但它已经以修改后的形式适用于 RG 甚至 VQA。BLEU 提供了机器生成的文本与 humangenerated 参考文本对齐程度的定量测量 [Pap+02]。首先,使用公式计算不同 n-gram 的精度,它们是 n 个单词的连续序列:其中 “重叠 n-gram” 指的是模型生成文本中与参考文本中至少一个 n-gram 共享公共元素的 n-gram。为了确保精度分数保持稳健,并且不受模型生成文本中重复 n-gram 的不成比例的影响,通常会引入一种称为剪切的修改。这个过程涉及将模型生成文本中每个 n-gram 的计数限制为最大计数。
4.3 医学模型
在审查文件的这一部分中,我们概述了为 VQA 和 / 或 RG 量身定制的现有医学 VLM。信息是根据模型的第一次出现按时间顺序组织的。我们的重点主要是最近引入的开源或公开可用的模型。表 2 中提供了这些 VLM 的摘要。
4.3.1 医学视觉语言学习者(MedViLL)
MedViLL 可以处理医学图像以生成相关报告 [Moo+22]。该模型采用 ResNet-50 [He+16],在 ImageNet [Den+09] 上进行训练,用于提取视觉特征 v。该模型还利用基本 BERT [Dev+19] 嵌入层从临床报告中提取文本特征 t,这些特征最初使用 WordPiece [Wu+16] 标记器分割成一系列标记。文本和视觉特征都包含位置信息,以捕获输入数据中元素的空间关系和顺序。为了生成跨模态表示,向量 v 和 t 以及特殊标记 [CLS]、、连接在单个向量中,如下所示:(CLS、v、SEPV、t、SEPL)。然后将跨模态表示输入 BERT 模型。MedViLL 正在对两个任务进行预训练:MLM 和 ITM。MLM 任务采用双向自回归(BAR)自我注意力掩膜,促进图像和语言特征的整合。对于 MLM,使用负对数似然损失函数。ITM 任务鼓励通过预测匹配对来学习视觉和文本特征,并采用基于匹配和非匹配对预测的损失函数。该模型在 MIMIC-CXR [Joh+19b] 数据集的 89,395 对图像报告对上进行预训练,然后在 Open-I [Dem+15] 数据集的 3,547 对上进行下游任务的微调,这是一个包含射线图像报告对的附加数据集。两个数据集的分析中仅包括 AP 视图 X 射线。VQA 在 VQA-RAD [Lau+18] 数据集上执行(见表 3),包括开放式和封闭式问题,其中 [CLS] 的输出表示用于预测一个 one-Hot 编码答案。对于放射学 RG 微调,模型使用 sequence-to-sequence(S2S)掩码代替 BAR,并通过顺序恢复 MASK 令牌来生成报告。RG 在 MIMIC-CXR [Joh+19b] 和 Open-I [Dem+15] 上进行评估。MedViLL 在 MIMIC-CXR 上实现了 0.066 的 BLEU-4 分数,4.185 的困惑值,并使用 CheXperlabeler [Irv+19] 的准确率为 84.1%,精度值为 0.698,召回值为 0.559,F1 分数为 0.621。此外,它在 MIMIC-CXR 上
在 Open-I 上获得 BLEU-4 评分 0.049,困惑值 5.637,准确率 73.4%,精确度 0.512,召回值 0.594,F1 评分 0.550。
4.3.2PubMedCLIP
PubMedCLIP [EMD23] 是一个基于 CLIP 的 [Rad+21] 模型,在 ROCO [Pel+18] 数据集上进行了预训练,由来自 PMC 文章的 80K 图像字幕对组成。该模型利用基于 Transform [Vas+17] 架构的 CLIP 文本编码器和三种不同的 CLIP 视觉编码器:ViT-B/32 [Dos+21]、ResNet-50 和 ResNet-50×4 [He+16]。遵循 CLIP 中的对比学习方法,该模型通过计算文本和视觉特征之间的余弦相似度来生成联合表示。预训练目标包括计算视觉和语言的交叉熵损失值。然后对这些损失进行平均以得出总体损失值。在预训练之后,模型被重新用作 VQA 的预训练视觉编码器。VQA 中的视觉特征是模型输出与卷积去噪自动编码器(CDAE)[Mas+11] 输出的连接,这是一个图像去噪模块。问题使用 GloVe [PSM14] 词嵌入和 LSTM [HS97] 进行编码。图像和问题特征使用双线性注意力网络(BAN)[KJZ18] 组合,结果表示通过答案分类器传递,这是一个两层前馈神经网络。VQA 损失通过结合分类和图像重建损失来确定。在 VQA 微调期间,使用 SLAKE(英文)[Liu+21a] 和 VQA-RAD [Lau+18] 数据集,包括开放式和封闭式问题。该模型的有效性在两种现有的医学 VQA(MedVQA)方法的背景下进行评估:增强视觉特征的混合(MEVF)[Za+20a] 和 question-conditioned 推理(QCR)[Liu+23a]。评估涉及用 PubMedCLIP 替换 MEVF 和 QCR 中的视觉编码器组件,并随后评估模型的性能。QCR 框架中的 PubMedCLIP 在 VQA-RAD 和 SLAKE 数据集上比在 MEVF 框架中实现了更好的准确性。QCR 框架中的 PubMedCLIP 在两个数据集上的最高精度如表 3 所示。
3.3RepsNet
RepsNet 专为 VQA 任务而设计。它可以生成自动化医疗报告并解释医疗图像。该模型采用预训练的 ResNeXt-101 [谢 + 16] 的修改版本作为其图像编码器,并利用预训练的 BERT [Dev+19] 作为文本编码器,通过 WordPiece [Wu+16] 完成文本标记化。使用 BAN [KJZ18] 实现图像和问题特征的融合。为了使图像与文本描述对齐,该模型采用双向对比学习 [Che+20a]。对于 VQA 任务,模型在 VQA-RAD [Lau+18] 上进行微调和评估(见表 3)。相比之下,对于 RG,微调和评估是使用 IU-Xray [Dem+15] 数据集完成的。该模型通过对封闭式问题的分类对答案进行分类,并使用基于图像特征和先验上下文的 GPT-2 语言解码器的修改版本生成答案。RepsNet 在 IU-Xray 数据集上的 BLEU-2 和 BLEU-4 分数分别为 0.44 和 0.27。
.3.4BiomedCLIP
BiomedCLIP 在专门策划的 PMC-15 数据集上进行预训练,该数据集由源自 PMC 文章的 15 M 图形 - 标题对组成 [查 + 23b]。然而,这些模型并不公开。模型架构类似于 CLIP [Rad+21],只是文本编码器是带有 WordPiece 标记器 [吴 + 16] 的预训练 PubMedBERT [古 + 21] 模型。该模型使用 ViT-B/16 [Dos+21] 作为可视化数据编码器。在预训练期间,模型采用对比
学习方法,并减少内存使用,它利用分片对比损失 [Che+22]。为了适应 VQA,该模型结合了 METER [Dou+22] 框架。这涉及部署基于 Transform-base 的共同关注多模态融合模块,该模块产生跨模态表示。然后将这些表示输入分类器以最终预测答案。该模型在 VQA-RAD [Lau+18] 和 SLAKE(英文)[Liu+21a] 数据集上进行评估(见表 3)。
4.3.5 统一胸部 X 线和报告生成模型(UniXGen)
UniXGen 是一个统一的模型,可以生成报告和特定视图的 X 射线 [Lee+23]。该模型利用 VQGAN [ERO21] 标记胸部 X 射线,VQGAN [ERO21] 是一种将生成对抗网络(GAN)与矢量量化(VQ)技术相结合的生成模型。VQGAN 使用编码器将输入图像转换为连续表示,随后使用矢量量化将它们离散化为可学习的密码本向量。此外,VQGAN 结合了一个解码器,在生成过程中将这些离散代码转换回图像。对于胸部 X 射线,来自同一研究的多个视图被标记为离散的视觉标记序列,由特殊标记划分以区分视角。在放射学报告的情况下,该模型使用字节级 BPE [WCG20] 标记器,并增加了正弦位置嵌入以增强表示。该模型基于带有多模态因果注意掩码的 Transform 架构 [Vas+17],确保序列中的每个位置都注意到所有以前的位置,而不是未来的位置。在训练期间,胸部 X 射线的多个视图和一个报告嵌入被随机连接并馈送到 Transform 中。该模型使用负对数似然损失函数进行优化。该模型在从 MIMIC-CXR [Joh+19b] 数据集中采样的 208,534 个研究上进行训练。每个研究最多包含三个代表 PA(从后到前)、AP(从前到后)和横向视图的胸部 X 射线。UniXGen 实现了 0.050 的 BLEU-4 分数,并使用 CheXpert 标签器 [Irv+19] 在 MIMIC-CXR 数据集上获得了 0.431 的精度分数、0.410 的召回值和 0.420 的 F1 分数。
4.3.6 检索 - 增强生物医学多模态 Pretrain-and-Finetune 范式(RAMM)
RAMM 是为生物医学 VQA [Yua+23] 量身定制的检索增强 VLM。该模型使用 Swin Transform [Liu+21b] 作为图像编码器,PubMedBERT [gu+21] 作为文本编码器。然后通过多模态编码器融合视觉和文本特征,这是一个 6 层变压器 [Vas+17]。该模型在 MIMIC-CXR [Joh+19b] 和 ROCO [Pel+18] 数据集上进行预训练,以及新策划的 PMC-Patients-Multi-modal(PMCPM)数据集,该数据集由从 PMC-OA [Lin+23a] 数据集中采样的 398000 个图像 - 文本对组成。该模型的预训练目标函数是三个任务的总和:对比学习、ITM 和 MLM。使用对比学习,该模型使用余弦相似度度量对齐图像和文本。VQA 任务被视为一个分类问题,并使用交叉熵损失函数对模型进行优化。在模型微调期间,检索 - 注意力模块将图像 - 问题输入的表示与从预训练数据集中检索到的图像 - 文本对的四种表示融合,这允许模型在生成答案时专注于检索到的信息的相关部分,该模型在 VQA-Med 2019 [Aba+19]、VQA-Med 2021 [Ion+21]、VQA-RAD [Lau+18] 和 SLAKE [Liu+21a] 数据集上进行评估(见表 3)。
.3.7 对比 X 射线报告匹配(X-REM)
X-REM 是一种基于检索的放射学 RG 模型,它使用 ITM 分数来测量胸部 X 射线图像和放射学报告的相似性,以进行报告检索 [Jeo+23]。该模型的 VLM 骨干是 ALBEF [Li+21]。ALBEF 利用 ViT-B/16 [Dos+21] 作为其图像编码器,并使用 BERT [Dev+19] 基本模型的前 6 层初始化文本编码器。ALBEF 中的多模态编码器,负责结合视觉和文本特征以生成 ITM 分数,使用 BERT 基本模型的最后六层进行初始化。X-REM 利用 ALBEF 的预训练权重,并对 X 射线与从 MIMIC-CXR [Joh+19b] 数据集中提取的印象切片(2,192 对)、发现切片(1,597 对)或两者(2,192 对)配对进行进一步的预训练。随后,该模型在 ITM 任务上进行微调,其中评分机制涉及使用正类的 logit 值作为图像 - 文本对的相似度分数。为了解决医学数据集中的正偏度问题,使用了从 CheXbert [Smi+20] 标签器获得的 14 个临床标签。该模型通过采用 ALBEF 的预对齐单峰嵌入有效地管理与 ITM 分数相关的计算负担。这涉及在计算 ITM 分数之前基于与输入图像的高余弦相似度缩小候选报告。此外,文本编码器在自然语言推理(NLI)任务上进行微调,利用 MedNLI [RS18] 和 RadNLI [Miu+21] 等数据集。这一步对于防止检索具有重叠或冲突信息的多个报告至关重要。X-REM 在 MIMIC-CXR(仅限 Findings)数据集上实现了 0.186 的 BLEU-2 分数。模型的 BERTScore 在 MIMIC-CXR(仅限结果)上为 0.386,在 MIMIC-CXR(印象和结果)上为 0.287。
4.3.8 视觉医疗 - 羊驼
Visual Med-Almica 是一个生物医学基础模型,设计用于解决多模态生物医学任务,如 VQA [舒 + 23]。该模型以以下方式构建。首先,图像输入通过分类器来确定将视觉信息转换为中间文本格式的适当模块。目前支持的模块包括 DePlot [Liu+22],用于解释图表和图表,以及 Med-GIT [万 + 22a],专门针对 ROCO [Pel+18] 数据集进行微调,以理解放射学图像。然后,提示管理器合并从图像和文本输入中提取的文本信息,以构建 LLM 模型的提示,LLaMA-7B [Tou+23b]。然而,在生成响应之前,LLaMa-7B 在精心策划的 54,000 个医学问答对上进行标准微调和 LoRA [胡 + 22] 微调。该集合内的问题来源于 MEDIQA QA [BSD19]、MEDIQA RQE [BSD19]、MedQA [金 + 21]、MedDialog [禅 + 20]、PubMedQA [金 + 19] 等问答数据集,并以自指示 [万 + 23b] 方式使用 GPT-3.5-Turbo 合成其对应答案。人类专家随后对获得的问答对进行精心过滤和编辑,以确保质量和相关性。该模型的评估仍在进行中 [舒 + 23]。
4.3.9 基于对比 X 射线报告对检索的生成(CXR-RePaiR-Gen)CXR-RePaiR-Gen 专为放射学 RG 设计,它结合了 RAG 框架,以减轻幻觉参考 [Ran+23b] 的问题。该模型利用了之前在 CXR-ReDonE [RCR22] 中使用的预训练 ALBEF [LAN+19]。ALBEF 模型由 ViT-B/16 [Dos+21] 图像编码器和作为文本编码器的 BERT [Dev+19] 的前 6 层组成,产生对比对齐的图像和文本嵌入。文本特征在矢量数据库 Facebook AI 相似性搜索(FAISS)中进行索引。当给定放射学图像输入时,来自检索与图像嵌入具有最高点积相似性的报告或句子语料库。CXR-PRO [RCR22] 数据集用于文本检索,以收集生成放射学报告的相关印象。从 CXR-PRO 数据集中检索到的印象部分作为 LLM 提示的上下文,以及生成放射学报告的说明。生成自由文本报告时使用了两种不同的提示:一种用于 text-davinci-003 模型,另一种用于 RG,用于 GPT-3.5-Turbo 和 GPT-4 模型的对话设置。该模型在 MS-CXR [Boe+22] 和 CXR-PRO 数据集上进行评估。尚未为该模型提供代码。CXR-RePaiR-Gen 在基于 GPT-4 的 CXR-PRO 数据集上达到 0.2865 的 BERTScore 分数。此外,CXR-RePaiR-Gen 在基于 text davinci-003 的 MS-CXR 上获得 0.1970 分。当基于 GPT-4 时,该模型在 CXR-PRO 数据集上获得 0.1061 分,当基于 text davinci-003 时,在 MS-CXR 数据集上获得 0.0617 分。在这些情况下,CXR-RePaiR-Gen 在 RAG 过程中每个输入使用三个检索样本。
4.3.10 生物医学大语言和视觉助手(LLaVa-Med)
LLaVa-Med 是 VLM LLaVa [Liu+23b] 的改编,通过对 instruction-following 数据集 [Li+23a] 进行训练,专门为医学领域量身定制。视觉特征由预训练的 CLIP [Rad+21] 视觉编码器 ViT-L/14 [Dos+21] 生成。编码器可以被 BiomedCLIP [Za+23b] 取代。这些特征通过线性投影层,该层将它们转换为标记,然后与标记化的指令一起被馈送到 LLM LLaMa-7B [Tou+23b]。LLM 可以被 Vicuna [Chi+23] 取代。在使用通用域 LLaVA 初始化后,模型使用课程学习进行微调。首先,模型试图理解生物医学图像中的视觉元素并将其连接到语言模型知识中的相应单词或描述。为了实现这一目标,使用了一个由来自 PMC-15 数据集的 600,000 个图像 - 字幕对组成的数据集,该数据集最初用于 BiomedCLIP 的训练。这些图像 - 字幕对被转换为 instruction-following 数据集,其中指令提示模型简洁或详细地描述相应的图像。给定语言指令和图像输入,然后提示模型预测原始字幕。在这个阶段,视觉编码器和语言模型权重保持冻结,更新专门应用于线性投影层。训练的第二阶段侧重于调整模型以遵循不同的指令。为此,从 PMC-15 生成另一个 instruction-following 数据集。对于这个数据集,指令被设计来指导 GPT-4 模型从图像标题和来自原始 PMC 论文中提到图像的句子中生成多轮问答 [Li+23a]。在这个训练阶段,模型在一组 60,000 张图像上进行训练,每张图像都伴随着各自的标题和多轮问答。在整个过程中,视觉编码器的权重保持不变,保留了先前获得的视觉特征。同时,投影层和语言模型的预训练权重都进行持续更新。这种方法使模型能够有效地响应各种指令,并在生成动态和信息丰富的多轮会话内容方面表现良好。最后,对于 VQA,模型在 VQA-RAD [Lau+18]、SLAKE [Liu+21a] 和 PathVQA [He+20] 上进行了微调和评估(见表 3)。
4.3.11XrayGPT
XrayGPT 是专门为分析胸片 [Tha+23] 而开发的对话式医学 VLM,该 VLM 使用 MedCLIP [万 + 22b] 作为视觉编码器来生成视觉特征。
这些特征经历了一个细致的转换过程:最初,它们通过线性投影头映射到低维空间,随后通过线性转换层转换为标记。在其核心,该模型包含两个文本查询:(1)助手查询在将模型的行为情境化并将其目的定义为 “您是一个乐于助人的医疗保健虚拟助手” 方面发挥作用,(2)医生的查询作为提示,指导模型提供与胸部 x 光分析相关的信息。从视觉输入生成的标记与标记化的查询连接起来,然后输入到医学 LLM 中,后者生成胸部 x 光的摘要。该架构中使用的 LLM 是 Vicuna-7B [Chi+23],在丰富的数据集上进行了微调,该数据集包括患者和医生之间的 100,000 次真实对话,以及来自ShareGPT.com的 20,000 次放射学对话。在训练过程中,视觉编码器和 LLM 的权重保持冻结,而线性变换层中的权重进行更新。该模型首先在预处理的 MIMIC-CXR [Joh+19b] 数据集中的 213,514 对图像 - 文本对上训练,然后在 Open-I [Dem+15] 数据集中的 3,000 对图像 - 文本对上训练。XrayGPT 在 MIMICCXR 数据集上实现了、和。
4.3.12 协同注意力 gaTed 视觉语言数据高效图像转换器(CATViL DeiT)
CAT-ViL DeiT 作为专为手术场景中的 VQA 量身定制的专用 VLM 脱颖而出,其独特的重点是答案本地化 [BIR23]。该架构结合了一个 ResNet-18 [He+16] 作为视觉编码器,在 ImageNet [Den+09] 上进行了预训练,并为文本编码器提供了一个定制的预训练 BERT 标记器 [参见 + 22]。其功能的核心是协力 gaTed 视觉语言(CAT-ViL)模块,该模块支持视觉和文本特征之间的交互,并通过门控机制将它们融合,以获得优化的多模态嵌入。然后使用门控机制将这些特征融合,产生优化的多模态嵌入。该模型进一步集成了一个预训练的数据高效图像转换器(DeiT)[Tou+21] 模块来处理这些多模态嵌入,旨在获得最佳的联合表示,以实现全面的视觉和文本理解。在 VQA 的背景下,该模型采用标准分类头,而对于图像内的答案定位,它采用变压器检测(DETR)[Car+20] 头。整体损失函数包括交叉熵作为分类损失和 L1 范数,以及联合上的广义交集(GIoU)[Rez+19],作为定位损失。该模型在来自手术数据集 EndoVis 2018 [All+20] 的 1,560 帧和 9,014 对 QA 上进行训练。该模型在 EndoVis 2018 的剩余数据上实现了 61.92% 的准确率,在 EndoVis 2017 [All+19] 数据集上实现了 45.55% 的准确率。
4.3.13 单峰和多模态对比损失(MUMC)的屏蔽图像和文本建模
MUMC 使用 ViT-B/12 [Dos+21] 作为其图像编码器,BERT [Dev+19] 的前 6 层作为其文本编码器,BERT 的最后 6 层作为其多模态编码器 [Li+23b]。多模态编码器结合了交叉注意力层来对齐视觉和文本特征。对于预训练,该模型采用了对比学习、MLM 和 ITM 目标的组合。此外,该模型利用了新引入的屏蔽图像策略,随机屏蔽 25% 的图像块作为数据增强技术。这将模型暴露在更多种类的视觉环境中,并支持对部分遮挡输入更稳健的学习表示。预训练在 ROCO [Rad+21]、MedICaT [Sub+20] 和跨语言评估论坛(ImageCLEF)标题 [Réuc+22] 数据集中的图像检索上执行。对于下游VQA 任务,在多模态编码器之上添加应答解码器,生成应答文本令牌,编码器权重从预训练初始化,模型在 VQA-RAD [Lau+18]、SLAKE [Liu+21a]、PathVQA [He+20] 上微调评估(见表 3)。
.3.14 地中海火烈鸟
Med-Flamingo 是一个基于 Flamingo [Ala+22] 架构的多模态少镜头学习者模型,适用于医学领域 [Moo+23]。该模型在 MTB [Moo+23] 数据集上进行了预训练,该数据集是一个新策划的集合,包括来自各种医学教科书的 4721 个片段,包括文本内容和图像。每个片段被设计为包含至少一个图像和最多 10 个图像,具有指定的最大长度。此外,它还在来自 PMC-OA [Lin+23a] 数据集的 1.3 M 图像 - 字幕对上进行了预训练。该模型的少镜头能力是通过在这些混合文本和图像数据集上进行训练来实现的,使其能够仅通过几个示例来泛化和执行各种多模态任务。该模型利用预训练的冻结 CLIP 视觉编码器 ViT-L/14 进行视觉特征生成。为了将这些视觉特征转换为固定数量的标记,该模型采用了一个称为感知器重新取样器的模块,该模块从头开始训练。随后,这些标记与标记化的文本输入一起,在预训练的冷冻 LLM LLaMA-7B [Tou+23b] 中进行进一步处理,并通过战略性插入的门控交叉注意力层进行增强,这些层也从头开始训练。这种增强不仅有助于学习新的关系,还增强了训练稳定性。该模型的性能在 VQA-RAD [Lau+18] 和 PathVQA [He+20] 等既定基准上进行评估,证明了其在医学视觉问答中的有效性。MedFlamingo 的精确匹配分数在 VQA-RAD 上显示为 0.200,在 PathVQA 上显示为 0.303。相比之下,零射击性能在 VQARAD 上产生 0.000 的精确匹配分数,在 PathVQA 上产生 0.120 的精确匹配分数。此外,它是在专门创建的视觉美国医师执照考试(USMLE)数据集上进行评估的,该数据集包括 618 个具有挑战性的开放式 USMLE 式问题,并增加了图像、病例小插图和实验室测量表,涵盖了各种医学专业。在 VQA-RAD、PathVQA 和视觉 USMLE 数据集上对 Med-Flamingo 模型的人类评估在第 4.2 节中进行了描述。
4.3.15RaDialog
RaDialog 是一个 VLM,它将自动化放射学 RG 与对话辅助 [Pel+23] 集成在一起。该模型结合了 BioViL-T [ban+23],这是一种混合模型,融合了 ResNet-50 [He+16] 和 Transform [Vas+17] 架构的优势。BioViL-T 在放射学图像和报告上进行了预训练,用作视觉编码器,生成补丁视觉特征。提取的特征通过 BERT [Dev+19] 模型进行对齐,将它们转换为 32 个标记的简明表示。该模型结合了 CheXpert 分类器,以在医学图像中提供有组织的发现。这些发现是根据从 CheXbert [Smi+20] 模型获得的标签生成的。该分类器使用 CheXbert 从放射学报告的发现部分预测的标签独立训练。该模型将视觉特征、结构化发现和指令 “编写放射学报告” 集成到一个单一提示中,该提示用作 LLM 的输入,LLM 是一个使用 LoRA [胡 + 22] 微调的 Vicuna-7B [Chi+23] 模型。训练是在来自 MIMIC-CXR [Joh+19b] 数据集的 X 射线图像 - 报告对上进行的。RaDialog 在 MIMIC-CXR 数据集上实现了 0.095 的 BLEU-4 分数、0.2710 的 ROUGE-L 分数、0.14 的 METEOR 分数和 0.400 的 BERTScore 分数。为了解决训练期间灾难性遗忘的挑战并确保模型在不同下游任务中的能力,它在新创建的 Instruct [Pel+23] 数据集上进行了专门训练。该数据集经过精心策划,涵盖了一个光谱8 种不同的任务:RG、NLE、完整的 CheXpert QA、二进制 CheXpert QA、区域 QA、总结、报告更正和使用简单语言重新制定报告。每个任务都伴随着精心制定的提示,旨在从模型中获得特定的响应。例如,一些提示涉及回答有关特定 X 射线区域的问题。在 Instruct 数据集上训练的 RaDialog 在二进制 CheXpert QA 任务上获得 0.397 的 F1 分数,在完整的 CheXpert QA 任务上获得 0.403 的 F1 分数。相比之下,未经 Instruct 训练的 RaDialog 的 F1 分数分别较低,为 0.018 和 0.098。
表 3:医学 VLM 在 VQA 任务上的准确度比较。下划线的准确度对于特定数据集是最高的。
挑战和潜在的未来方向
在医疗人工智能领域,未来前景广阔,同时也带来了显著的挑战 [Aco+22]。随着技术的进步,将 VLM 集成到医疗保健领域有可能彻底改变诊断、治疗计划和患者护理。未来的医疗 VLM 可能在理解复杂的临床场景、生成医学图像的详细报告以及促进医疗从业者和人工智能系统之间的无缝通信方面提供增强的能力。然而,这些进步伴随着挑战。
开发有效的医学 VLM 的一个重大挑战是 MLready 多样化和代表性医学数据集的可用性有限。这一限制限制了 VLM 的全面培训,阻碍了他们理解多样化和罕见临床场景复杂性的能力 [Moo+23]。具有大上下文窗口和 RAG 的 VLM 通过合并检索到的相关信息来增加模型的上下文,从而提供了一种潜在的解决方案。虽然 RAG 通常涉及训练期间的冻结模型,但在 RAG 框架内探索 VLM 的预训练开辟了一条新的研究途径 [查 + 23d]。这种创新方法可能会增强 VLM 的稳健性,特别是在处理新的和不可预见的医疗案例方面。此外,围绕患者数据隐私的紧迫问题突出了创新解决方案的必要性,如联邦学习(FL)。FL 提供了一个有希望的策略,可以缓解医疗数据的稀缺性,同时优先考虑患者隐私 [查 + 21]。在这个分散的学习方法,模型跨多个机构进行训练,并且只共享模型权重,而不是数据。因此,它有效地解决了对患者隐私的主要担忧,同时支持跨不同数据集的协作模型训练。
传统指标可能无法捕捉到临床语言的细微复杂性,对 VLM 性能的可靠评估构成障碍 [Yu+23]。在评估医学报告的准确性或解决开放式医学查询时,这一问题变得尤为明显,因为指标需要辨别临床相关的区别。因此,为医学 RG 和 VQA 量身定制的专门指标的开发和采用势在必行。这些指标不仅对于评估模型性能至关重要,而且对于评估泛化、效率和稳健性等方面也至关重要。建立这些指标将极大地有助于促进精确评估和医学 VLM 能力的持续进步。
生成性 VLM 中的幻觉问题对其可靠性和实际应用提出了重大挑战 [Liu+24]。幻觉是指 VLM 生成的输出不基于所提供的图像或与既定知识不一致的情况。在医学背景下,这些幻觉可能会产生严重后果,导致不准确的诊断信息或治疗建议。一个已确定的幻觉根源是视觉和文本信息之间缺乏一致性 [Sun+23]。训练 VLM 有效地对齐这些数据模式对于降低幻觉风险至关重要。例如,LLaVA-RLHF [Sun+23] 通过合并 RLHF 来对齐不同的模式来实现减少幻觉。需要进一步研究构建基于最小幻觉的事实医学知识生成的医学 VLM。
克服灾难性遗忘给医学 VLM 的开发带来了额外的挑战。当学习新信息的模型无意中擦除或扭曲了以前获得的知识时,就会发生灾难性遗忘,这可能会损害其整体能力。在微调期间取得平衡可能至关重要;适度的微调有助于使模型适应特定任务,而过度的微调可能会导致灾难性遗忘 [查 + 23a;KBR23]。从持续学习中利用方法 [万 + 23a;周 + 23b;CR24;KBR23;KBR24] 可能在医学 VLM 的背景下有用,在医学 VLM 中,跨不同临床任务适应和积累知识的能力至关重要。持续学习侧重于训练模型,以便随着时间的推移顺序地学习和适应新数据,同时保留以前遇到的任务的知识 [KBR24]。此外,在持续学习的框架内结合适配器可以成为减轻灾难性遗忘的宝贵工具 [查 + 23c]。
最后,临床验证和 VLM 的采用需要医学专家和人工智能 / 机器学习研究人员之间的合作桥梁。信任、与临床需求保持一致和道德部署是成功将这些模型集成到医疗保健工作流程中的关键组成部分。建立强大的协作确保了动态协同,将领域专业知识与技术进步相结合。这种协同对于医疗保健中负责任和有效部署医疗 VLM 至关重要。