Enhancing Medical VQA with Multimodal Determination Rationales | OpenReview
问题:医疗视觉问答(MedVQA)任务中存在模型可解释性和透明度有限、决策过程难以理解的问题,且现有 MedVQA 解决方案在实际医疗场景中的应用存在挑战。
挑战:
- 现有数据集的决策过程缺失,阻碍了对模型可解释性的可靠评估,且手动标注决策理由耗时费力,缺乏快速可靠的标注框架。
- 现有 MedVQA 方法在实际应用中需要既能快速、准确又具有可解释性的模型。
创新点:
- 设计了半自动化标注流程,利用多模态大语言模型(MLLM)辅助专家标注,创建了包含中间推理步骤(即医学决策原理 MDMR)的新基准 MedVQA 数据集 R-RAD、R-SLAKE 和 R-Path。
- 提出了轻量级框架 MedThink,通过结合医学决策原理,选择 T5-base 架构,设计了三种生成策略(“解释”“推理”“两阶段推理”),使模型在生成决策结果的同时输出相应的决策原理,清晰展示推理过程。
贡献:
- 开发了带有决策原理标注的 MedVQA 数据半自动化流程,R-RAD、R-SLAKE 和 R-Path 是首批包含答案理由的 MedVQA 基准数据集。
- 提出了具有三种回答策略的轻量级框架 MedThink,实现了更快、更准确且可解释性更强的 MedVQA。
- 通过大量实验和消融研究证明了 R-RAD、R-SLAKE 和 R-Path 数据集的有效性以及 MedThink 的优越性。
提出的方法:
- 半自动化标注方法:利用 MLLM 辅助专家进行数据清洗和标注,生成 MDMR。
- MedThink 框架:包含基于 Transformer 架构的 TextualEncoder、VisualEncoder、Cross Attention Network、Gated Fusion Network 和 TextualDecoder。通过不同的生成策略(“解释”“推理”“两阶段推理”)结合 MDMR 进行训练和推理。
指标:
- 对于封闭端问题,使用准确率作为评估指标。
- 对于开放端问题,采用 BLEU 和 ROUGE 评估方法输出的质量,BLEU 类似于 “精度”,评估生成句子和参考句子之间的 k-grams 重叠;ROUGE 类似于 “召回”,测量单词序列的相似性。
模型结构:
- TextualEncoder:将输入问题 T 转换为文本特征空间。
- VisualEncoder:将输入医疗图像 I 转换为视觉特征。
- Cross-Attention Network:计算注意力引导的视觉特征。
- Gated Fusion Mechanism:确定融合系数 λ,计算融合后的输出。
- TextualDecoder:生成输出。
结论:所提出的框架不仅清晰阐明了 MedVQA 模型的医疗决策过程,还显著提升了其性能。
剩余挑战和未来工作:未来将进一步探索适用于实际临床环境的生成模型,以及如何更好地评估 MedVQA 模型在开放端场景中的性能。
数据集:
- R-RAD、R-SLAKE 和 R-Path 数据集,分别基于 VQA-RAD、SLAKE 和 PathVQA 构建。
- 这些数据集提供了中间推理步骤,即医学决策原理 MDMR,包含必要的医学背景知识和医学图像描述。其相关统计信息在文中的表 1 中有详细展示。
抽象
医学视觉问答(Medical Visual Question Answering,MedVQA)能够对基于图像的医学问题提供语言回答,是一项具有挑战性的任务,也是医疗保健领域的重大进步。它帮助医学专家快速解读医学图像,从而实现更快、更准确的诊断。然而,现有 MedVQA 解决方案的模型可解释性和透明度往往有限,这给理解其决策过程带来了挑战。为了解决这个问题,我们设计了一个半自动标注流程,以简化数据准备工作,并构建新的基准 MedVQA 数据集 R-RAD、R-SLAKE 和 R-Path。这些数据集为现有 MedVQA 数据集中的问答对(即 VQA-RAD、SLAKE 和 PathVQA)提供了由多模态大语言模型生成的中间医学决策理由和人类标注。此外,我们设计了一个新颖的框架 MedThink,它通过结合医学决策理由来微调轻量级预训练生成模型。MedThink 包括三种不同的策略来生成决策结果和相应的理由,从而在推理过程中清晰地展示医学决策过程。我们的综合实验表明,我们的方法在 R-RAD 上的准确率为 83.5%,在 R-SLAKE 上的准确率为 86.3%,在 R-Path 上的准确率为 87.2%。这些结果显著超过了具有类似参数的现有最先进模型。数据集和代码将发布。
1 介绍
医学视觉问答(Medical Visual Question Answering,MedVQA)任务旨在将医学图像和专业的临床问题作为输入,并以文本形式提供准确答案。自 2018 年 Hasan 等人发起 MedVQA 挑战赛以来,人们对探索 MedVQA 的能力产生了极大兴趣,如 Liu 等人在 2023 年的研究所示。有效的 MedVQA 不仅有可能提高患者参与度,从而减轻患者压力,还能协助医生进行临床诊断,从而节省宝贵的医疗资源并降低误诊风险,如 Zhan 等人在 2020 年的研究所示。
解决 MedVQA 任务的挑战有两方面。一方面,尽管存在大量由医学图像和文本注释组成的数据集(Porwal 等人 [2018]),但问题和答案对之间的决策过程通常缺失,这阻碍了对模型可解释性的可靠评估。虽然一些最近的数据集已经纳入了图像、专业医学查询和答案文本(Lau 等人 [2018]、Liu 等人 [2021b]),但得出特定诊断决策的相应推理过程仍不清楚,导致黑箱式且在临床上不适用的推理(Lu 等人 [2022]、Liu 等人 [2023c])。一个直接的解决方案是在这些数据集中整合专家级推理依据,以揭示潜在的推理过程。然而,手动标注此类依据既耗时又需要深入了解医学知识,而一个快速可靠的依据标注框架仍然缺失(Liu 等人 [2023a])。
另一方面,能够以快速、准确和可解释的方式解决 MedVQA 任务的模型在现实世界的应用中具有很高的必要性。当前的 MedVQA 方法通常通过检索和训练具有对比或分类目标的 MedVQA 模型来对该问题进行建模。例如,Nguyen 等人。Nguyen 等人 [2019] 采用了无监督卷积去噪自动编码器和元学习方法的组合来学习外部医学数据集上 MedVQA 模型的领域特定权重初始化。此外,Zhang 等人。Zhang 等人 [2022] 首先在医学领域实现了对比学习,提出了 ConVIRT,这是一种利用医学文本 - 图像对比损失进行预训练医学视觉表示的方法论。此外,Liu 等人。Liu 等人 [2021a] 提出了 CPRD,这是一个两阶段的预训练框架,利用表示蒸馏和对比学习在大量未标记的放射图像语料库上训练 MedVQA 系统的视觉编码器。最近的 PubMedCLIP 模型 Eslami 等人 [2023] 率先通过进行预训练将对比语言 - 图像预训练 Radford 等人 [2021] 纳入 MedVQA 任务。
相比之下,大型语言模型(LLMs)在各种自然语言处理(NLP)任务中的卓越表现已经扩展到医疗保健领域的文本问答中(Nori 等人 [2023])。在此基础上,多模态大型语言模型(MLLMs)(OpenAI [2023],Team 等人 [2023])接受文本和图像输入以生成响应,为解决医学视觉问答(MedVQA)任务提供了一种新方法。然而,由于多模态大型语言模型的高运营成本和显著的延迟,在实际医疗场景中直接将其应用于医学视觉问答任务是不切实际的。
在本文中,我们旨在通过提供新的基准数据集和新颖的 MedVQA 解决方案来应对上述挑战。我们设计了一种半自动标注方法,利用 MLLM 强大的推理能力在标注过程中协助专家,显着提高了效率。通过我们的方法,我们开发了 R-RAD、R-SLAKE 和 R-Path 数据集。这些数据集提供了对医学决策至关重要的中间推理步骤,包括必要的医学背景知识和医学图像描述,我们将其称为医学决策理性(MDMR)。此外,我们设计了一个新颖的框架 MedMind,以微调预训练的生成模型,特别选择了 T5 基础架构 Raffel et al.[2020] 作为我们的基础架构,因为它在现实世界应用中的实用性。该架构只需 223M 参数,即可熟练地执行生成任务,平衡成本有效性和实用价值。通过将 MDMR 纳入训练过程,我们的模型不仅输出决策结果,还输出相应的基本原理,从而清楚地展示了推理过程中的医疗决策过程。基于训练期间 MDMR 的不同输入,我们进一步提出了三种不同的生成模式:“解释”、“推理” 和 “两阶段推理”,如图 1 所示。
大量的实验结果表明,我们的方法在 R-RAD 上实现了 83.5% 的准确率,在 R-SLAKE 上实现了 86.3% 的准确率,在 R-Path 上实现了 87.2% 的准确率。这些结果表明,与具有可比参数的现有最先进模型相比,我们的贡献如下:
我们开发了一个半自动化流程,用决策原理注释 MedVQA 数据。据我们所知,R-RAD、R-SLAKE 和 R-Path 数据集代表了第一个包含答案基本原理的 MedVQA 基准数据集。
我们提出了一个轻量级框架 —— 医疗思考,具有三种回答策略,能够实现更快、更准确的医疗质量保证,并增强可解释性。
我们进行了广泛的实验和消融,证明了 R-RAD、R-SLAKE 和 R-Path 数据集的有用性以及 MedMind 的优越性。
2 相关工作
2.1 MedVQA
VQA 代表了计算机视觉和自然语言处理交叉领域的前沿、多模态任务,在这两个领域都引起了广泛关注。MedVQA 应用 VQA 的原理来解释和回答关于医学图像的复杂查询。MedVQA 系统通常由特征提取、特征融合和答案推理三个关键组件组成,旨在通过处理给定的医学图像以文本形式生成答案。
以前的 MedVQA 解决方案 Nguyen et al.[2019], Zhang et al.[2022] 依赖于 CNN,例如在 ImageNet 上预训练的那些,如 VGG 或 ResNets,来提取视觉特征。同时,RNN 被用于处理文本信息。随着大规模预训练的发展,最近的作品 Liu et al.[2023b],van Sonsbeek et al.[2023],Eslami et al.[2023] 已经转向基于变压器的模型,以增强文本和视觉模态的特征提取能力。在内容方面,这些作品仍然将 MedVQA 视为分类问题。然而,这种方法与医疗实践的现实不一致,临床医生很少面临可以通过预定义答案选项解决的场景。
这种不协调强调了 MedVQA 方法的必要性,该方法更具适应性,更能反映医学诊断和决策中固有的复杂性。我们的论文将 MedVQA 重新定义为生成任务。在实际医疗环境中,当面临开放式查询时,我们提出的 MedVQA 模型仍然可以根据所学的医学知识生成明智的响应。
2.2 思想链
最近,语言模型 Raffel et al. [2020]、Chowdhery et al. [2023] 对 NLP 进行了显著转变。为了进一步增强语言模型的推理能力,之前的工作 Cobbe et al. [2021], Wei et al. [2022] 在训练或推理阶段加入了推理原理,指导模型生成最终预测。另一方面,在 VQA 领域,VQA 系统理解来自不同来源的多模态信息并推理特定领域的问题至关重要。为了实现这一目标,Lu et al. [2022]、Zhang et al. [2023b] 等几项工作提出了 VQA 的多模态推理方法。这些方法通常称为 “思维链”,引入了中间步骤来帮助模型进行推理。在本文中,我们提出了 “医疗决策原理”(MDMR) 并将其应用于 MedVQA 任务。我们预计配备 MDMR 的 MedVQA 系统不仅将为医疗决策提供支持,还将阐明这些决策背后的基本原理。
方法
3.1 问题制定
在本文中,我们将医学数据集表示为 ,其中 M 是数据样本的数量。MedVQA 任务的目标是开发一个映射函数 ,它可以生成文本答案来回答医学问题,表示为:
在这里,我表示来自 X 射线、CT 或 MRI 等模式的医学图像。T 代表与医学图像 I 有关的自然语言问题。模型 的输出 ,表示为 ,由两个组件组成。A 是预测的文本答案,直接寻址 T 中提出的查询。R 被称为 “医学决策理由”,为答案 A 提供了详细的理由,阐明了模型如何处理 I 和 T 的解释性见解。
3.2 模型架构
模型架构包括五个组件,如图 1 (b) 所示:TextualEncoder、VisualEncoder、Cross Attention Network、Gated Fusion Network 和 TextualDecoder。值得注意的是,TextualEncoder、VisualEncoder 和 TextualDecoder 都基于 Transformer 架构,该架构以其强大的学习和表示功能而闻名。
图 1:数据准备、模型架构和回答 MedVQA 问题的方法概述。(a) 概述了数据集清理和注释过程,其中原始数据经过提炼和注释,以形成具有准确 MDMR 的新数据集。(b) 显示模型架构,其中包含用于处理医学问题的文本编码器、用于分析医学图像的视觉编码器以及具有门控融合机制的交叉注意力网络,该机制协同结合文本和视觉特征,为 MedVQA 任务生成明智的响应。Carion et al. [2020], Khashabi et al. [2020], Zhang et al. [2023b] (c) 是回答 MedVQA 问题的各种策略的例证。这些策略显示了 MDMR 的包含和排列如何影响模型的输出。训练过程包括三个步骤。首先,训练集由 MLLM 进行注释。接下来,我们使用训练集来训练我们的模型。第三,经过训练的模型为测试集生成 MDMR。
TextualEncoder 将输入问题 T 矢量化为文本特征空间,表示为 ,而 VisualEncoder 将输入医学图像 I 转换为视觉特征 。这可以表示为: =TextualEncoder(T) 和 ,
其中 n 表示输入文本的长度,d 表示隐藏的维度,m 表示图像色块的数量。
在获得文本表示 和视觉表示 后,我们的模型采用交叉注意力网络来促进这两种模式之间的交互。交叉注意力网络计算注意力引导的视觉特征 ,通过以下操作捕获文本查询对应的相关视觉特征: 其中 Q 、 K 、 V 对应查询、键、值,分别源自 、 、 。
随后,利用门控融合机制动态组合文本表示 和注意力引导的视觉特征 。它通过两种模态的 sigmoid 激活线性组合确定融合系数 λ:
然后,将融合输出 计算为 和 的加权和,由 λ 调节 这里, 和 是在训练过程中学习的模型参数,以优化文本流和视觉流之间的信息融合。最后,融合输出 被馈送到 TextualDecoder 中,以生成输出 :
3.3 损失函数
给定输入 ,通过最大化准确预测目标输出 的可能性来训练模型 f。训练涉及一个损失函数,主要是正确预测序列 Y 中后续标记的负对数似然,在所有时间步长上累积。这在数学上表述为:
在此上下文中, N 表示目标答案 Y 中的标记总数,而 表示正确预测 Y 中第 n 个标记的条件概率,给定序列中的输入 X 和所有前面的标记 。此损失函数显著提高了模型准确预测目标输出中每个标记的能力,从而提高了其整体预测性能。
3.4 三代策略
为了研究 MDMR 对 MedVQA 任务中模型性能的影响,我们提出了三种不同的生成策略。这些策略旨在指导模型生成各种形式的输出,对应于生成过程中 MDMR 的不同顺序。这些方法分为 “解释”、“推理 ” 和 “两阶段推理”,如图 1 (c) 所示。
在 “Explanation” 方法中,首先生成答案 A,然后生成 MDMR R 。相比之下,“推理” 方法则颠倒了这个顺序,在 A 之前生成 R。“两阶段推理” 方法遵循分阶段策略,其中两个独立的模型在不同的阶段进行训练。第一阶段侧重于使用医学问题 T 和医学图像 I 来生成中间结果 R 。在第二阶段,不同的模型采用 R 以及 T 和 I 来推导出最终答案 A 。
【
“两阶段推理” 是本文为提升 MedVQA 模型性能和可解释性提出的一种生成策略,具体做法如下:
第一阶段
- 生成中间结果 R(原理):利用训练集中的医学问题和医学图像,通过模型训练生成中间结果。此阶段专注于提取与问题相关的医学知识、图像特征以及初步的推理判断,为后续生成最终答案奠定基础。例如,对于一张胸部 X 光图像及相关问题,模型会分析图像中的肺部纹理、阴影等特征,并结合医学知识,生成关于肺部可能存在问题的初步推理,如 “肺部纹理增粗,可能存在炎症” 等中间结果。
第二阶段
- 生成最终答案 A:使用另一个模型,将第一阶段生成的中间结果,连同原始的医学问题和医学图像一起作为输入,经过进一步的分析和推理,生成最终的答案。在这个过程中,模型会综合考虑中间结果中的信息,以及问题和图像的细节,进行更深入的判断和决策。比如,根据第一阶段得出的肺部可能存在炎症的结果,结合图像中其他特征以及问题的具体要求(如判断病情严重程度、提出治疗建议等),最终生成如 “根据图像特征和分析,患者肺部可能存在轻度炎症,建议进一步检查并结合临床症状进行诊断” 这样的答案。
“两阶段推理” 通过将推理过程分解为两个明确的阶段,使模型能够更系统地处理医学视觉问答任务,提高了模型的准确性和可解释性,有助于在复杂的医疗场景中提供更可靠的答案和决策依据。
】
4 数据集创建
4.1 数据集集合
我们分别基于 VQA-RAD 数据集 Lau et al. [2018]、SLAKE 数据集 Liu et al. [2021b] 和 PathVQA He et al. [2020] 建立了三个基准数据集 R-RAD、R-SLAKE 和 R-Path。
如果三个数据集的这些问题的答案选择有限,则被归类为 “封闭式”,否则被归类为 “开放式”。对于我们的工作,我们坚持使用官方数据集拆分进行评估。完成数据清洗和标注后,R-RAD 数据集共包括 3515 个医学问题和 314 张医学图像,R-SLAKE 数据集包括 5980 个医学问题和 546 张医学图像,R-Path 数据集包含 4012 张图像和 26494 个问答对。表 1 详细介绍了 R-RAD、R-SLAKE 和 R-Path 数据集的相关统计数据。
4.2 数据集清理
我们发现原始数据集中存在明显的不一致之处。具体来说,关于同一医学影像的类似问题的答案并不总是一致的。例如,对于胸部 X 线成像,对 “右半侧膈肌是否正常” 问题的回答是 “否”,而 “这张图像正常吗” 的回答是 “是”。这个明显的矛盾促使我们对此类病例寻求进一步的专家医学审查,以确保我们数据集的可靠性。
鉴于 MLLM 的进步,我们将 MLLM 集成到我们的数据清理和注释流程中,旨在简化工作流程。这种集成不仅可以加快数据处理速度,还可以挖掘手动清理和注释实践中经常遗漏的细微之处。为了解决不一致问题,我们首先使用 MLLM 系统地审查每个医学图像的所有问答对。在发现不一致之处后,领域专家会修改答案,确保与同一医学影像相关的所有问题的一致性。
4.3 数据集标注
数据清理后,我们利用 MLLM 进行数据注释,特别是为 VQA-RAD、SLAKE 和 PathVQA 数据集中的项目生成 MDMR,如图 1 (a) 所示。这涉及向 MLLM 提供数据集的图像、问题和正确答案。因此,我们设计了一个固定的 Prompt 来指导 MLLM 的生成过程。为了确保 MDMR 的质量,领域专家会检查 MDMR 的有效性和适用性。不符合标准的 MDMR 将由 MLLM 重新生成。如果 MLLM 生成的 MDMR 在三次尝试后仍低于标准,则领域专家将亲自创建一个可接受的版本,并遵守预定义的标准。
我们聘请经验丰富的医生作为领域专家,以确保对我们的数据进行专业和准确的注释。为了考虑到医学意见的多样性,我们制定了严格的审查标准来指导注释过程。标准如下:
1)一致性:MDMR 必须逻辑上连贯,没有语法或拼写错误。(2)相关性:MDMR 必须与问题直接相关,并与临床背景相关。
(3)准确性:MDMR 应该没有常识和医学知识错误。只有当所有三个条件都满足时,MDMR 才会包含在我们的数据集中。
5 实验
5.1 培训详情
在数据集构建阶段,我们从 MLLM 中选择 GPT-4V OpenAI [2023] 来处理数据清理和注释。在我们的框架中,UnifiedQA Khashabi 等人的编码器和解码器分别集成为 TextualEncoder(・)和 TextualDecoder(・)。此外,DETR Carion 等人 [2020] 被用作 VisualEncoder(・)。
在我们的实验中,对于 R-SLAKE、R-RAD 和 R-Path 数据集,学习率统一设置为 5e-4。微调期间的纪元数量因数据集而异:R-SLAKE 数据集为 300 个纪元,R-RAD 数据集为 150 个纪元,R-Path 数据集为 50 个纪元。需要注意的是,我们的 “两阶段推理” 策略需要分阶段的微调过程,涉及两个独立的模型。在第一阶段,我们遵循上面提到的参数。在第二阶段,我们在所有三个数据集中以 5e-5 的学习率微调 20 个纪元。批量大小设置为 32。
本文报道的所有实验都是在配备四个 NVIDIA RTX 3090 GPU 的 Ubuntu 服务器上使用 PyTorch 进行的。在 R-RAD 数据集上训练大约需要 2.5 小时。相比之下,在 R-SLAKE 数据集上训练大约需要 5.5 小时,而 R-Path 数据集大约需要 14 小时。在推理过程中,处理每个样本大约需要 6 秒。
5.2 评估指标
我们的绩效评估分为两部分,分别关注封闭式和开放式问题。对于封闭式问题,这些问题被格式化为选择题,只有一个正确答案,我们使用准确性作为指标来评估绩效。对于开放式问题,与以前的作品 Yang et al.[2016]、Kim et al.[2018]、Yu et al.[2017]、Nguyen et al.[2019]、Tiong et al.[2022]、Eslami et al.[2023] 相比,这些作品经常强调对开放式 MedVQA 数据集中的所有可能答案进行评分以衡量分类准确性,我们在生成性 MedVQA 方面的工作优先考虑临床效用。根据已建立的研究 Li et al.[2023]、Zhang et al.[2023a],我们使用 BLEU 和 ROUGE 来评估我们方法输出的质量。BLEU 分数,类似于 “精度”,评估生成句子和参考句子之间的 k 字格重叠,而 ROUGE 分数,类似于 “召回”,衡量单词序列的相似性。
5.3 主要结果
在面对封闭式问题时,我们评估了 MedMind 在各种生成策略下的性能,并将其与 R-RAD、R-SLAKE 和 R-Path 数据集上的几种基线方法进行了比较。结果如表 2 所示。MedMind 展示了不同生成策略的不同性能水平。具体来说,带有 “解释” 策略的 MedMind 在 R-RAD 和 R-SLAKE 数据集上实现了最高的准确率,分别记录了 83.5% 和 86.3%。同时,带有 “两阶段推理” 策略的 MedMind 在 R-Path 上实现了最好的性能,准确率为 87.2%。
相比之下,最先进的分类模型 PubMedCLIP 在 R-RAD 数据集上实现了 79.5% 的准确率,在 R-SLAKE 数据集上实现了 82.5% 的准确率,这明显低于梅德思考的结果。这凸显了梅德思考的卓越性能。与其他基于 MLLM 的生成模型相比,梅德思考的表现优于 LLaVA Li 等人 [2024]、MedFlamingo Moor 等人 [2023] 和梅德双子座杨等人 [2024] 等模型,实现了与参数更繁重的 LLaVA-Med Li 等人 [2024] 和 Med-MoE 江等人 [2024] 模型相当的整体准确率。值得注意的是,梅德思考实现这一目标的参数计数不到这些模型的十分之一,证明了其效率和有效性。使用开放式问题,我们在 R-RAD、R-SLAKE 和 R-Path 数据集上对 MedMind 的三种策略进行了综合评估。结果总结在表 3 中。对于 R-RAD 数据集,“解释” 策略优于其他策略,在七个指标中的五个指标中获得了最高分。它在 Rouge-1 中记录了 50.2%,在 Rouge-L 中记录了 29.5%,在 BLEU-1 中记录了 38.3%,在 BLEU-2 中记录了 22.9%,在 BLEU-3 中记录了 14.0%。在 R-SLAKE 数据集上,“两阶段推理” 策略在性能上领先,在七个指标中的五个指标中获得了最高分,在 Rouge-2 中为 23.1%,在 BLEU-1 中为 39.5%,在 BLEU-2 中为 24.5%,在 BLEU-3 中为 15.8%,在 BLEU-4 中为 10.3%。关于 R-Path 数据集,“解释” 策略再次提供了最高的整体性能
在 Rouge-1 中,Rouge-2 中为 13.2%,Rouge-L 中为 25.0%,BLEU-1 中为 32.1%,BLEU-2 中为 17.1%,BLEU-3 中为 9.7%,BLEU-4 中为 5.8%。这些结果共同突出了选择适合解决各种医疗场景的适当生成策略的重要性,确保模型生成全面和详细的响应。
5.4 烧蚀研究
为了探索 MedMind 中各种组件的影响,我们进行了一系列消融实验。首先,我们评估了在数据集创建期间使用的不同 MLLM 的效果以及领域专家对数据注释的贡献。我们实现了三种变体来注释 R-RAD 数据集中的封闭式问题:在没有专家参与的情况下使用双子座专业团队等 [2023],在没有专家参与的情况下使用 GPT-4V,以及在有专家参与的情况下使用 GPT-4V。如图 2 所示,当 GPT-4V 在专家参与的情况下用于数据集创建时,“解释” 和 “两阶段推理” 策略分别实现了 83.5% 和 80.5% 的最高准确率。相比之下,在没有专家参与的情况下,“推理” 策略在双子座专业中表现最好,达到了 79.4% 的准确率,仅略高于未应用 MDMR 时 79.0% 的基线准确率。我们将此归因于 “推理” 策略的不稳定性,这阻碍了其持续受益于 MDMR 的能力,与卢等人先前的研究一致。[2022 年]。总体而言,专家的参与提高了 MDMR 的质量,产生了积极影响
图 2:MLLM 选择和专家参与数据集创建对 MedVQA 任务准确性的影响(%)。
此外,GPT-4V 的推理能力更强,相比于双子座 Pro 福等人。[2023] 进一步表明,在数据注释期间使用更高级的 MLLM 是有益的。
接下来,我们检查 MDMR 的引入如何影响结果。我们介绍了一个控制实验,没有 MDMR 的 MedMind,其中模型在没有合并 MDMR 的情况下进行训练和推断(MedMind w/o R)。将 “解释”、“推理” 和 “两阶段推理” 策略与控制实验进行比较。如表 2 所示,与 “MedMind w/o R” 相比,“解释”、“两阶段推理” 和 “推理” 策略在 R-RAD 数据集上分别提高了 4.5%、1.5% 和 - 5.1% 的准确性,在 R-SLAKE 数据集上分别提高了 3.8%、-3.4% 和 - 1.7%,在 R-Path 数据集上分别提高了 1.0%、1.2% 和 - 2.9%。
最后,我们评估了使用不同策略生成的 MDMR 的实用性。最初,双子座专业版仅提供医学查询和相关图像。随后,我们将 MedMind 生成的 MDMR 与 “解释”、“推理” 和 “两阶段推理” 策略相结合,以帮助双子座专业版回答。表 2 中的结果表明,在 R-RAD 数据集上的初始准确率为 73.5%,在 R-SLAKE 数据集上为 69.0%,在 R-Path 数据集上为 64.8%。MDMR 的集成带来了显着的改进。在三种策略中,“解释” 策略脱颖而出,在 R-RAD 数据集上提高了 6.3% 的准确率,在 R-SLAKE 数据集上提高了 9.1%,在 R-Path 数据集上提高了 7.8%。
5.5 案例研究
为了评估 MDMR 对 MedVQA 任务的具体影响,图 3 显示了几个示例,MedMind 应用 “解释” 策略来回答来自 R-SLAKE 数据集的问题。当生成的 MDMR 准确时,MedMind 可以有效且准确地回答相关的医学问题。但是,如果 MDMR 包含错误,它会误导 MedMind,导致一种称为幻觉的现象,这是视觉语言模型中的常见问题。为了调查 MedMind 中幻觉的原因,我们分析了它在 R-SLAKE 数据集上提供的错误答案的数量。选择 R-SLAKE 数据集是因为它涵盖了关于六个解剖区域的医学问题,提供了一个复杂且具有代表性的挑战。
我们通过以下步骤进行分析。首先,我们按与医学图像相关的解剖区域对测试集问题进行分类。接下来,我们统计每个解剖区域错误预测问题的数量。最后,我们计算每个区域错误预测的比例,如表 4 所示。结果表明,MedMind 显着有助于解决与胸部和腹部相关的医学问题。然而,这些区域仍然占预测错误的大部分。我们将此归因于胸部和腹部图像的复杂性更大,它们比其他区域包含更多的器官,这对模型提出了相当大的挑战。
图 3:MDMR 增强 MedVQA 任务中模型反应的图示。绿色突出显示的文本表示有助于回答问题的医学相关知识,而红色突出显示的文本表示可能导致错误结论的信息。图像中的红色框对应于所描述的解剖特征,强调基本原理和视觉证据之间的一致性。
【
在论文中,“w/” 是 “with” 的缩写,表示 “有” 或 “包含”;“w/o” 是 “without” 的缩写,表示 “没有” 或 “不包含”。例如,“MedThink (w/o R)” 表示没有医学决策原理(MDMR)的 MedThink 模型,用于对比分析引入 MDMR 对模型性能的影响。这些缩写在实验部分用于区分不同实验条件或模型设置。
“Answer w/o R” 表示 “没有(without)医学决策原理(R)的答案”。在论文的实验部分,这可能用于指代模型在未引入医学决策原理(MDMR)时所生成的答案,通过与引入 MDMR 后的答案(如 “Answer w/ R”,这里 “w/” 表示 “with”)进行对比,来研究 MDMR 对模型生成答案的准确性、质量及可解释性等方面的影响。例如,在评估模型性能时,会比较 “Answer w/o R” 情况下的准确率、BLEU 和 ROUGE 等指标与 “Answer w/ R” 时的差异,从而确定 MDMR 在 MedVQA 任务中的作用和价值。
】
6 结论
在本文中,我们提出了一个基于生成模型的 MedVQA 框架,并构建了 R-RAD、R-SLAKE 和 R-Path 数据集,其中包括解决 MedVQA 模型中黑箱决策过程挑战的中间推理步骤。广泛的实验结果表明,我们提出的框架不仅清晰地阐明了 MedVQA 模型的医学决策过程,而且显著提高了它们的性能。未来的研究将进一步探索为真实临床环境量身定制的生成模型,以及如何更好地评估 MedVQA 模型在开放式场景中的性能。
致谢和资金披露
这项工作得到了国家自然科学基金(批准号 62106222)、中国浙江省自然科学基金(批准号 LZ23F020008)和浙江 University-Angelalign 公司智能医疗研发中心的支持。