2024.2 AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulato

https://arxiv.org/abs/2402.09742

人工智能医院:在多智能体医疗交互模拟器中对大型语言模型进行基准测试

问题

  1. 临床应用差距:大语言模型(LLMs)在医学问答基准测试中表现出色,但在真实世界的临床诊断应用中仍存在显著差距。
  2. 缺乏动态交互评估:现有研究缺乏对 LLMs 在模拟复杂、多轮的医患动态交互诊断过程能力的评估。

挑战

  1. 患者信息沟通挑战:患者医学知识不足,对自身状况表述可能不准确、不全面,且存在主观理解偏差,难以在单次交互中向医生清晰传达身体状况,增加了诊断难度。
  2. 模型多轮交互能力有限:当前 LLMs 在多轮交互诊断中表现欠佳,难以像医生一样通过主动询问收集关键症状、推荐合适检查,与一步式诊断方法(如直接利用所有患者信息的 GPT - 4)相比,诊断准确性差距大。
  3. 数据和评估局限性:研究主要使用中文医疗记录,样本量虽多样但有限,可能无法涵盖所有复杂情况,如罕见病;模拟交互难以完全复制真实医患互动的细微差别;当前治疗计划评估系统不完善,未考虑替代策略,可能低估模型性能。

创新点

  1. 提出 AI 医院框架:这是一个由 LLM 驱动的多智能体框架,模拟真实动态医疗交互场景,包含患者、检查者、主任医师等角色,可对 LLMs 在复杂临床场景中的能力进行全面评估。
  2. 建立 MVME 基准:利用高质量医疗记录评估 LLMs 驱动的医生在症状收集、检查推荐和诊断等方面的性能,包含多视角评价标准实体重叠自动化指标,从多个维度全面评估模型能力。
  3. 设计争议解决协作机制:利用多个 LLMs 作为医生独立与患者交互,引入主任医师作为中心智能体,通过迭代讨论和争议解决策略,提高诊断准确性,该机制能有效整合模型知识,促进达成共识。

贡献

  1. 引入创新框架:AI 医院框架为评估 LLMs 在临床诊断中的能力提供了新方法和场景,有助于深入理解模型在实际医疗场景中的表现。
  2. 建立评估基准:MVME 基准为评估 LLMs 在医疗诊断任务中的性能提供了标准化、多维度的评估方式,推动该领域研究向更精确、全面的方向发展。
  3. 提出协作机制:争议解决协作机制为提高 LLMs 诊断准确性提供了新思路,展示了团队协作在医疗诊断中对模型性能提升的潜力。

提出的方法

  1. AI 医院框架设置
    • 智能体设置与医疗记录关联:将医疗记录信息分为主观信息(患者提供的症状、病史等)、客观信息(检查报告)和诊断治疗信息,分别分配给患者、检查者和主任医师,医生在诊断过程中无初始信息,需通过交互获取。
    • 智能体行为设定
      • 患者:表现出合作、沟通、好奇和个性化特征,使用口语化语言,可能遗漏细节或有主观偏差,基于病历和 GPT - 4 推理个性化背景。
      • 检查者:根据患者检查请求提供准确结果,拒绝模糊请求,无对应结果时报告无异常。
      • 主任医师:评估医生诊断表现,要求医生提供总结报告并与原始病历对比评分。
      • 医生:由被评估的 LLMs 驱动,积极收集信息,必要时建议检查,综合主客观信息诊断。
    • 对话流程:患者基于病历生成主诉开启对话,医生与患者、检查者交互获取信息诊断,各方消息加前缀明确接收方,对话持续至医生诊断或达到最大交互轮数。
  2. MVME 基准评估
    • 多视角评价标准:医生需提供包含症状、检查、诊断结果、诊断依据和治疗计划的总结报告,主任医师对各部分从 1 - 4 分评价,同时计算诊断结果部分的实体重叠自动化指标(提取疾病实体并链接标准化实体,计算数量、精度、召回率和 F1 分数)。
    • MVME 数据集构建:收集并筛选在线中文医疗记录,经专业医生审查,去除信息不完整记录后得到 506 个病例,分布于多个科室,专家验证准确率达 94%。
  3. 争议解决协作诊断:多个不同的 LLMs 作为医生独立与患者交互,产生不同诊断报告,主任医师作为中心智能体汇总分析数据,与患者和检查者确认争议点,引导医生讨论,通过多次迭代逐步达成共识,提高诊断准确性。

指标

  1. 基于 MVME 基准的评价指标
    • 多视角评价指标:对医生总结报告的症状、医疗检查、诊断结果、诊断依据和治疗计划五个部分,由主任医师分别给出 1 - 4 分评价,反映模型在信息收集、诊断和治疗建议等方面的能力。
    • 实体重叠自动化指标(仅针对诊断结果):计算 LLMs 诊断结果与实际医疗记录中疾病实体的重叠情况,包括平均提取疾病实体数量(#)、精确率(P)、召回率(R)和 F1 分数(F),衡量诊断结果准确性。
  2. 智能体行为评价指标
    • 患者相关性和诚实性:评估患者回复与医生问题的相关性及与病历主观信息的一致性。
    • 检查者准确性:衡量检查者对检查请求的理解准确性及返回结果的正确性。
    • 医生一致性:判断医生最终诊断报告与对话流程中信息的一致性,分为显著不一致、轻微不一致和基本一致三个等级,并映射到 0 - 100 分范围。

模型结构

论文未提及传统意义上的特定模型结构,而是聚焦于 AI 医院框架这一多智能体系统结构,由患者、检查者、主任医师和医生(由不同 LLMs 驱动)等智能体组成,各智能体在框架内通过特定的行为设置和交互流程,共同模拟医疗诊断过程,以实现对 LLMs 在临床诊断场景下性能的评估和改进。

结论

  1. 模型性能现状:通过 AI 医院框架和 MVME 基准评估,发现当前 LLMs 在临床诊断交互性能上与一步式诊断的 GPT - 4 存在较大差距,即使 GPT - 4 自身在交互诊断中也未达理想水平,表明 LLMs 尚未充分学习到真实世界临床决策经验。
  2. 信息收集与诊断质量关系:患者信息收集的完整性(症状和医疗检查信息)与诊断质量(诊断结果、依据和治疗计划)呈显著正相关,LLMs 在主动收集患者症状和推荐合适检查方面存在困难,限制了其诊断能力。
  3. 协作机制有效性:提出的争议解决协作机制能有效提升诊断准确性,多模型协作效果优于单个模型,且参与协作的模型越多,诊断效果越好;同时,争议解决机制能加快医生达成共识速度,提高协作效率。
  4. 失败案例原因:对 GPT - 4 诊断错误案例分析,主要原因包括遗漏辅助检查(未推荐必要检查)、仅关注并发症(忽视症状与潜在健康问题关联)和错误判断(医学专业知识不足)。

剩余挑战和未来工作

  1. 数据相关挑战与改进:主要使用中文医疗记录,限制了研究结果对其他语言和医疗系统的通用性;样本量虽多样但有限,未来需扩大数据规模,涵盖更多疾病类型,尤其是罕见病,提高数据代表性。
  2. 模拟交互真实性提升:模拟交互难以完全复制真实医患互动的细微差别,需进一步验证和改进模拟方式,使交互更贴近实际医疗场景。
  3. 完善评估体系:当前治疗计划评估系统不完善,未来应考虑更多可行的替代策略,更全面准确地评估 LLMs 在治疗建议方面的性能。
  4. 环境影响与模型优化:广泛使用 OpenAI 的 LLM API 增加了环境负担,后续研究可探索使用更小、更高效的开源模型,同时优化模型性能,提升诊断准确性,减少对大规模 API 的依赖。
  5. 拓展 AI 医院框架应用:AI 医院框架在医疗教育、辅助医疗人员培训、生成高质量医疗对话数据以及推动医疗 AI 研究等方面具有潜力,未来将致力于拓展这些应用领域,进一步发挥框架价值。

抽象

人工智能显著推进了医疗保健,特别是通过在医疗问答基准方面表现出色的大型语言模型(LLM)。然而,由于医患互动的复杂性,它们在现实世界中的临床应用仍然有限。为了解决这个问题,我们引入了人工智能医院,这是一个多代理框架,模拟医生作为玩家和 NPC 之间的动态医疗交互,包括患者、检查员、主任医师。这种设置允许在临床场景中对 LLM 进行现实评估。我们开发了多视图医学评估(MVME)基准,利用高质量的中国病历和 NPC 来评估 LLM 在症状收集、检查建议和诊断方面的表现。此外,还提出了一种争议解决协作机制,以通过迭代讨论提高诊断准确性。尽管有所改进,但与一步方法相比,当前的 LLM 在多轮交互中表现出显着的性能差距。我们的发现强调需要进一步的研究来弥合这些差距,提高 LLM 的临床诊断能力。我们的数据、代码和实验结果都在GitHub - LibertFan/AI_Hospital: AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern Doctors for Clinical Diagnosis开源。

1 介绍

近年来,医疗保健在人工智能方面取得了重大进展 [1],特别是通过开发大型语言模型(LLM)[2-4]。这些模型在 MedQA [5]、PubMedQA [6] 和 MedMCQA [7] 等静态医学问答基准上表现出色,甚至可以与人类专家相媲美。然而,LLM 在这些基准上的表现与其在临床诊断中的实际应用之间仍然存在巨大差距。

在实践中,患者经常缺乏足够的医学知识,并且可能对各种医学概念拥有模棱两可的理解,使得他们难以在单一交互中准确、全面地向医疗保健提供者传达他们的身体状况 [8]。因此,患者经常表现出对医生指导和澄清的强烈依赖。医生在与患者的复杂、多轮交互中承担主导作用,以收集准确诊断和治疗所需的信息 [9,10]。尽管这种动态的、以患者为中心的诊断过程至关重要,但评估大型语言模型(LLM)模拟这种交互的能力的研究却很少。

为了应对上述挑战,我们引入了人工智能医院,这是一个由 LLM 驱动的多代理框架,模拟现实世界的动态医疗交互。人工智能医院由多个非玩家角色(NPC)组成,包括病人、检查员和主任医师,以及由医生代表的玩家角色。它重现了病人就诊的场景,要求医生参与

与患者进行多轮对话,提出相关和试探性的问题,推荐适当的医疗检查,并在收集到足够的信息后做出诊断。我们在 NPC 中设置了检查员,专门负责与患者互动并提供相关的医疗检查结果,确保医生能够访问患者的必要客观信息以做出准确的诊断。此外,主任医师负责在整个会话后评估医生的表现。人工智能医院框架的多智能体性质允许对复杂的医疗场景进行逼真的模拟,从而能够全面评估 LLM 驾驭各种临床情况的能力。

基于 AI 医院框架,我们通过建立多视图医疗评估(MVME)基准来调查利用 LLM 作为医生进行临床诊断的可行性。该基准纳入了由经验丰富的医疗专业人员精心筛选的高质量中国医疗记录集合。这些真实世界的案例提供了详细的结构化医疗概况,包括患者的主观状况、客观的医疗测试结果、诊断和治疗。利用 GPT-3.5 和 GPT-4 来模拟 AI 医院的非玩家角色(NPC),我们在这个动态和现实的医疗交互环境中对 LLM 驱动的医生的表现进行了彻底的评估。MVME 基准根据主任医师的三个关键维度评估医生的表现:收集症状、推荐检查和做出诊断的能力。作为补充,我们还开发了一种基于链接的方法,该方法集成了医疗标准知识以生成实体级评估指标。

为了提高 LLM 的诊断准确性,借鉴先前强调团队合作在临床诊断中重要性的研究 [11,12],我们深入研究了协作机制 [13,14],促进医生之间的迭代讨论。我们利用多个医生独立处理同一病历,允许不同的对话轨迹和诊断结果。提出了一种争议解决策略,有效地聘请中心代理来指导讨论、澄清问题,并引导医生进行更有条理和更有效的协作,从而促进更有针对性的讨论并加速达成共识

【其实就是请了一个专家带头人】

为了评估 LLM 在临床诊断中的表现,我们在人工智能医院框架内进行了广泛的实验。我们首先验证人工智能医院中各种角色的可靠性,然后评估交互式诊断过程中的一系列 LLM。我们的结果揭示了交互式 LLM 和一步式 GPT-4 之间的巨大性能差距,后者通过在一次交互中直接利用所有患者信息作为上限。在诊断结果、诊断原理和治疗计划的准确性等关键指标上,交互式 LLM 的性能不到一步式 GPT-4 的 50%。尽管prompt工程学,LLM 难以在多轮互动中做出合理的决策,导致诊断准确性次优。争议解决协作机制在一定程度上提高了绩效,但也没有达到上限。这表明现有的 LLM 可能没有完全吸收有效的多轮诊断策略。我们的定量结果突出了现有 LLM 在提出相关问题、引发关键症状和推荐适当的医学检查方面面临的挑战。这些发现强调了当前 LLM 在复制专业医生采用的复杂临床推理过程时遇到的困难,并强调了进一步研究的必要性,以弥合 LLM 和人类医生在临床诊断方面的差距。

综上所述,本文的主要贡献可以概括如下:1)我们引入了 AI 医院,这是一个新颖的 LLM 驱动的多智能体框架,用于模拟医疗交互,能够全面评估 LLM 在复杂临床场景中的导航能力;2)我们建立了多视图医疗评估(MVME)基准,该基准利用高质量的医疗记录来评估 LLM 驱动的医生在收集症状、推荐检查和做出诊断方面的表现;3)我们提出了一个争议解决协作机制,促进医生之间的迭代讨论,以提高诊断准确性。我们的 AI 医院框架的潜力在附录 H 中进行了全面讨论。

2 人工智能医院的设置

如图 1 所示,AI 医院框架包括三个 NPC 角色 —— 患者、检查者和主任医师 —— 和一个玩家角色医生。每个角色在框架内承担特定的角色和职责。AI 医院分两个阶段运作。在诊断阶段,患者、检查者和医生进行对话,以交换准确诊断所需的信息。这个阶段的交互次数可能因医生的诊断策略而异。随后,在评估阶段,主任医师负责对医生在诊断阶段的表现进行评分。以下部分将详细说明 AI 医院中每个代理的设置和构建方法。

2.1 代理设置医疗记录

病历是重建医院就诊体验和模拟真实世界医疗互动的宝贵资源。通过利用这些记录,我们可以对诊断过程进行逆向工程,并在 AI 医院框架内塑造代理人的行为。我们将每个病历中的信息分为三种类型:1)主观信息这一类包括患者的症状、病因、过去的病史、习惯等,主要由患者在与医生的口头互动过程中提供;2)客观信息这一类包括全血计数、尿检和胸部 X 光等医学测试报告。这些数据在病历中的存在表明患者在诊断过程中在医生的建议下进行了这些检查;3)诊断和治疗该类别由诊断结果、诊断原理和治疗过程组成,是医生在诊断过程中,基于主客观信息的结合而作出的最终结论。

这些类别的信息被分配给人工智能医院框架中相应的代理。患者可以访问主观信息,考官知道客观信息,主任医师拥有所有信息,而医生不能访问任何信息。人工智能医院框架将医疗记录中的特定类别的信息分配给每个代理,在诊断过程中形成他们的信息范围。

2.2 NPC 代理行为设置

在人工智能医院框架中,我们利用 GPT-3.5 驱动患者和检查员,利用 GPT-4 驱动主任医师,使他们能够真实地体现自己的角色。除了为 NPC 提供病历中的相关信息,我们还采用细致的即时工程来鼓励他们表现出真实的行为模式。

患者患者代理旨在展示一套逼真的行为模式,以增强医学模拟的真实性:1)合作。代理应积极响应

医生的询问并提供真实的答案,即使他们可能不会主动披露所有相关信息。代理人应积极参与医生推荐的体检;(2)沟通。代理人应使用口语化的语言,可能会由于有限的医学知识或个人信仰而遗漏某些重要细节或在描述其状况时存在主观偏见;3)好奇心。代理人应根据其理解水平表达担忧或问题,寻求医生的明确解释,以解决他们对诊断或治疗过程的疑虑;4)个性化。对于每一份病历,我们采用 GPT-4 来推理和想象患者独特的背景、经历、情绪反应和个性特征,从而增强模拟的真实感和深度。病人代理的提示如表 9 所示。

检查员检查员代理的主要目标是在患者代理请求查询特定医学测试时提供相关检查结果。为了保持模拟的真实性,代理遵循现实的工作流程。在收到检查查询后,代理首先识别请求的医学检查,并拒绝任何模棱两可或不清楚的请求。如果有相应的医学检查结果,检查员代理会将相关发现返回给医生。在没有发现特定结果的情况下,代理不会报告任何异常情况。提示如表 10 和 11 所示。

主任医师主任医师代理的首要职责是评估医生代理在交互式诊断中的表现。在诊断阶段之后,主任医师首先要求医生为患者提供一份全面的总结报告,然后通过将其与原始病历进行比较来评估总结报告,这是金标准。主任医师代理的提示和评估过程的更详细描述分别见表 13 和 §3。

2.3 玩家代理行为设置

玩家代理,即医生,可以由正在评估的各种 LLM 提供支持。然而,为了能够根据预定义的设置进行对话,LLM 必须 instruction-followed,否则 LLM 将难以在人工智能医院进行交互。

医生医生代理旨在模仿在现实世界实践中熟练和富有同情心的医生的基本素质和职责。鼓励代理积极收集信息,专注于获取患者的身体状况,如症状和病史。当代理确定需要额外的客观数据来做出自信的诊断或确认疑似病情时,它会建议相关的检查和测试。通过综合主观和客观发现,代理旨在准确诊断患者的病情,反映有经验的医生使用的系统方法。实习医生的提示如表 15 所示。

2.4 人工智能医院的对话流程

AI 医院框架通过涉及多个代理的结构化对话流模拟一个逼真的诊断过程。对话由患者代理发起,该代理根据患者的医疗记录提出由 GPT-4 生成的主要投诉。然后,医生代理与患者和检查者代理进行一系列交互,以收集必要的信息并做出准确的诊断。在整个对话过程中,每个代理的响应都以特殊符号为前缀,以明确指示其消息的预期接收者,从而实现无缝的多方对话流。对话一直持续到医生代理达到诊断或达到预定义的最大交互轮数。有关对话流程的更详细描述,请参阅附录 A。

3 MVME:LLM 作为临床诊断实习医生的评估

基于 AI 医院,我们通过建立多视角医学评估(MVME)基准来评估使用 LLM 作为医生代理进行临床诊断的可行性

3.1 多视角评价标准

评估医生代理的表现是人工智能医院框架的一个关键组成部分。如 §2.2 所述,在评估阶段,医生需要提供患者的全面总结报告。我们要求总结报告由 5 个部分组成,包括患者的症状、医疗检查、诊断结果、诊断理由和治疗计划。

由于患者病历的内容是使用自然语言描述的,因此主任医师作为评估者,将直接将报告的每一部分与患者完整的病历进行比较。对于总结报告的每一部分,GPT-4 - 驱动的主任医师需要从四个离散的分数进行评分:1、2、3 和 4,代表最差到优秀的表现。对 “症状” 部分的评估可以反映医生在交互过程中收集的症状的全面性。对 “体检结果” 部分的评估可以反映医生建议的体检的适当性。对其他部分的评估可以反映医生的诊断和治疗能力。这些指标可以反映 LLM 的动态和静态医疗决策能力,包括主动询问、信息收集、临床知识和综合判断。

除了上述基于模型的评估方法之外,我们还计算了诊断结果部分的 entity-overlap-based 自动化指标。我们从 LLM 提供的诊断结果和实际病历中提取所有疾病实体,并将其链接到其对应的标准化疾病实体。然后我们计算实体重叠,以衡量 LLM 做出的最终诊断的准确性。我们报告提取的疾病实体的平均数量(#)、集级精度(P)、召回(R)和 F1 评分(F)指标。目前,我们只计算疾病的实体级指标,因为现成的实体链接方法和标准,如国际疾病分类(ICD-10)[15],就是为此目的而存在的。对于症状和检查,由于缺乏现成的工具,将它们链接到相应的实体更具挑战性。因此,我们不会在本文中包含它们的实体级指标。

3.2 MVME 数据集构建

我们在网上收集不同科室的中国病历 2,并聘请专业医生进行彻底审查。排除了信息不完整等缺陷的记录后,共有 506 例病例。这些病例在各部门之间的详细分布见表 1。

为了验证收集到的病历的质量,我们从 10 个二级科室中选取样本,每个科室随机选择 5 个病例进行审查。从相应科室聘请医生来评估 “诊断和治疗”,包括诊断结果、诊断原理和治疗过程,并进行二元选择:要么 “基本正确”,要么 “明显不正确”。如果病历的三个部分基本准确,那么我们认为病历是正确的。总体而言,专家验证得出结论,94% 的记录被认为是正确的。

表 1:部门分布。

4 专注于争议解决的 LLM 协同诊断

为了进一步提高诊断准确性,我们提出了一种利用多个 LLM 的力量进行临床诊断的协作机制。在我们的协作框架中,我们雇用不同的 LLM 作为单独的医生,每个医生都与患者进行互动咨询。由于 LLM 之间的内在差异,这些互动可能会导致不同的对话轨迹和诊断报告。为了简化形成统一诊断报告的过程,我们引入了

中心代理,也称为主任医师,作为主持人参与。整个过程如图 4 所示。

主任医师整合和分析从医生那里收集的数据,与患者和检查者确认有争议的点,并综合患者病情的全面总结。通过多次讨论迭代,主任医师确定医生之间的分歧要点,并引导他们进行有针对性的讨论,逐步完善他们的理解并努力达成共识。这种协作机制利用 LLM 的集体智慧,通过利用他们多样化的知识和推理能力,同时促进完善诊断报告的结构化和迭代过程,从而提高临床诊断的准确性和稳健性。整个过程在算法 1 中被描述为伪代码,提示在附录的表 14 和表 16 中列出。

5 实验

5.1 AI 医院框架中的 Agent 行为分析

在展示主要结果之前,验证人工智能医院框架中的代理是否有效地与其预期的角色和行为保持一致是至关重要的。我们进行了一项实验来调查几个关键代理的行为,包括患者、检查员和医生。

表 2:人工智能医院代理行为的人类评估。# 表示样本量,例如 50 个对话中的医患 QA 对总数。

评估指标对于患者代理,我们关注患者和医生之间的沟通中的两个维度。第一个维度是患者对医生问题的回答的相关性。第二个维度是患者对病历中主观信息的回答的诚实度。对于考官代理,我们评估代理对所请求的医疗检查的理解的准确性及其在收到医疗检查查询时返回相应检查结果的能力。对于医生代理,我们评估医生最终诊断报告与对话流中信息的一致性。我们将一致性分为三个级别:1)明显不一致,2)轻微不一致,以及 3)大部分一致。这些级别分别分配了 1、2 和 3 的分数。最后,我们将此分数映射到 0-100 的范围。我们在附录 F 中详细记录了我们的评估方法论。

实验设置我们使用多个医生代理,包括 GPT-3.5、GPT-4 [2]、文心 4.0 和 Qwen-Max [4]。我们随机选择 50 个病历样本,并要求每个代理在 AI 医院框架内生成 50 个多轮对话轨迹。我们手动标记所有指标并报告平均值。

结果和分析表 2 展示了人工智能医院框架在模拟现实医疗交互方面的有效性,所有指标的高分(均超过 95 分)表明可靠和一致的代理行为。患者代理可以提供准确和相关的信息,检查代理可以准确理解并返回请求的医疗检查结果,医生代理可以生成一致的诊断报告。它验证了所提出的多代理系统的可靠性和有效性,为评估 LLM 在临床诊断中的表现奠定了坚实的基础。

表 3: MVME:临床咨询参考的 GPT-4 评估。一步中的 GPT-4是上限。对于 GPT-4,提供了症状和医疗检查的地面实况,得分为 100.0。

5.2 法学硕士能像医生一样诊断吗?

在本节中,我们调查了本文的核心问题,即 LLM 能像医生一样做出诊断吗?基于 AI 医院,我们评估了一系列 LLM,包括 GPT [2](GPT-3.5 和 GPT-4)、文心 - 4.0、QWIN-Max [4]、百川 13B、华拓 GPT-II13B 和 34B [16]。其中,华拓 GPT-II 是专门为医疗领域设计的。我们只专门选择华拓 GPT-II 作为比较模型,因为许多医学 LLM 在训练过程中明显失去了 instruction-following 能力。这种损失使得这些模型难以坚持我们的提示并进行有意义的对话,导致在我们的基准上表现不佳。

评估如 §3.1 所述,我们采用了建议的多视图评估标准。我们将所有指标的分数标准化为 0 到 100 之间的范围,并使用经典的引导方法 [17] 来计算方差。

在表 4: MVME:基于链接的诊断评估中,我们将 §2.1 中描述的患者主观信息和客观信息作为输入直接输入到 GPT4,提示它生成诊断报告,而无需经过交互式诊断阶段。我们将 GPT-4 在这一步设置中的性能视为 LLM 性能的上限。

可知的结果。

LLM 的交互式诊断性能主要实验结果见表 3 和表 4。我们的发现揭示了人工智能医院框架中现有 LLM 性能的几个关键见解。一个值得注意的观察是,人工智能医院框架中现有 LLM 的诊断性能明显低于一步 GPT-4 方法设定的上限。即使是 GPT-4 也达不到上限性能的一半。这一发现凸显了当前 LLM 在国际上的实质性局限性

主动设置,表明他们还没有学习足够丰富的真实世界临床决策经验。我们还观察到,参数较少的 LLM 往往表现出较弱的交互能力,如百川(13B),在交互诊断中表现出较低的性能。

收集信息有助于诊断基于表 3,我们进一步探讨了最终收集的信息与诊断质量之间的关系。我们使用症状和医学检查来衡量患者信息的完整性,并使用诊断结果、诊断理由和治疗计划来评估诊断质量。通过使用线性回归,我们在图 5 中展示了我们的结果,该结果表明更完整的患者信息和更高的诊断质量之间存在显着的正相关关系。这进一步解释了当前 LLM 的缺点,即 LLM 很难像医生一样通过主动提问来收集患者的症状,他们更难推荐正确的医学检查。这种动态临床决策能力的缺乏是阻碍 LLM 像医生一样诊断的巨大障碍。图 5 的详细信息可以在附录 C 中找到。

6 进一步分析

6.1 协作机制

在表 3 中,我们还评估了几种具有不同合作机制设置的模型。比较方法包括 3 个代理和 2 个代理的协同诊断,一个没有争议解决的 2 个代理。它们被表示为 3 个医生,2 个医生和 2 个医生,没有 DR。最初的两个实习医生由 GPT-3.5 和 GPT-4 提供动力进行交互式咨询,而最后一个使用文心 - 4.0。

图 2:有和没有 “争议解决” 机制的协作框架中讨论轮的统计分析。

有效性协作机制我们观察到几个关键发现: 1)模型的协作使用可以超过 GPT-4 的性能,从而验证协作机制的有效性;2)与 “2 个医生” 相比,“3 个医生” 之间的协作增强了诊断,突出了更多代理在合作中的好处;3)从 “2 个医生” 中删除 “争议解决” 机制降低了其有效性,强调了建立更好共识的意义。

协作中争议解决的效率对于 “争议解决”,我们继续检查实习医生是否可以更快地达成共识。在效率方面,对在有和没有 “争议解决” 机制的情况下达成共识所需的讨论轮次进行了比较分析。结果详见图 2。这些发现揭示了在采用争议解决机制后的最初四个讨论轮次内达成共识的比率显着提高。这种增强表明,在主任医师强调有争议的问题和专注于这些讨论的医生的推动下,该过程有效地减少了达成共识所需的时间。

6.2 失败案例的原因

我们分析了 219 例 GPT-4 诊断结果不正确的病例,并被主任医师评为 1 分。通过系统的人工审查,这些错误主要分为三种不同的类型,详见表 5。

一个说明性病例涉及未能发现胆囊结石,归因于缺乏推荐的腹部超声波。这一类别突出了 GPT-4 没有建议可能确认或排除可能的医疗条件的必要辅助检查的情况。

表 5:GPT-4 驱动的实习医生误诊分类及统计(1 分)。

独家关注并发症在某些情况下,GPT-4 只关注患者给出的症状,如足部软组织肿胀,而忽略了潜在的并发症,如糖尿病。这种类型的错误源于 LLM 对症状和潜在健康问题之间相互联系的认识有限,也未能促使进一步调查患者的综合健康状况。

错误判断即使提供完整的症状学和医学检查结果,GPT-4 偶尔也会得出错误的结论。这一类错误表明 LLM 中缺乏足够的医学专业知识,即使有全面的数据,也会导致诊断不准确。

7 相关作品

LLM 动力代理在 LLM 普及之前,已经有努力在医学领域创建代理,特别是用于医学教育 [18,19]。然而,这些代理往往缺乏灵活性,依赖于基于规则或传统的机器学习算法使得难以准确模拟医疗场景的复杂性。LLM 动力代理的进步通过类人动作在复杂任务解决方面取得了重大进展,例如工具学习 [20,21]、检索增强 [22,23]、角色扮演 [24]、通信 [25,26]。这包括软件设计和分子动力学模拟中的应用。医学领域的最新研究 [27] 强调了医学 QA 中的关键角色和决策过程,包括 CT 扫描、超声波、心电图和血液测试等各种调查。尽管取得了这些进步,但有效地将基于 LLM 的代理整合到医学领域,特别是在疾病诊断中,提出了一个显着的挑战 [28]。我们的研究率先使用多代理系统来创建临床诊断环境。我们引入了一种新的机制,用于识别、讨论和解决协作中的争议,在临床诊断中展示了有希望的结果。

医学大语言模型在大语言模型(LLM)出现之前,大多数自动化诊断方法 [9,10] 依赖于强化学习来指导代理收集症状和进行诊断。医学领域 LLM 的发展一直受到开源中文 LLM 和各种微调方法的推动。模型如 Med-PaLM [29]、DoctorGLM [30]、BenTsao [31]、ChatGLM-Med [32]、Bianque-2 [33]、ChatMed-Consult [34]、MedicalGPT [35] 和 DISC-MedLLM [36] 使用不同的数据集、技术和框架进行微调,专注于医学问答、健康查询和医生对话。

医学 AI 评估医学 AI 评估的先前研究集中于非交互式任务,包括问答,实体和关系提取,以及医学摘要和生成。在生物医学问答中,使用了 MedQA(USMLE)[5],PubMedQA [6] 和 MedMCQA [7] 等关键数据集,准确性作为主要评估指标。实体和关系提取 [37] 的目标是将命名实体及其关系从非结构化文本分类为特定的预定义类。突出的生物医学 NER 数据集包括 NCBI 疾病 [38],JNLPBA [39],BC5CDR [40],BioRED [41] 和 IMCS21 [42,43],F1 分数是模型性能评估的标准。

摘要和生成任务涉及将结构化数据(如表格)转换为描述性文本。这包括创建患者诊所信件、放射学报告和医疗记录 [44]。这些任务的主要数据集是 PubMed [6] 和 MentSum [45]。最近的一项研究引入了 BioLeaflet [46] 并评估了数据到文本生成中的多个大型语言模型(LLM)。

8 结论

在人工智能医院,我们通过专注于临床诊断,在医疗交互领域向前迈进了一步。我们引入人工智能医院来构建实时交互式会诊场景。我们使用收集的病历生成模拟患者和检查人员,并建立了一个全面的工程流程。基于该平台,我们构建了一个基准 MVME,以探索不同 LLM 在交互式会诊中的可行性。为了提高诊断准确性,本研究还为实习医生引入了一种新颖的协作机制,以迭代讨论和争议解决过程为特色,由医学主任监督。在我们的实验中,结果不仅展示了不同 LLM 的性能,还证实了我们以争议解决为中心的协作方法的有效性。为了进行深入分析,我们列出了错误类型并确定了应该解决的问题。未来,我们将重点打造更全面的基准、性价比评估框架,优化代理商。

限制

人工智能医院框架和 MVME 基准虽然在评估 LLM 在临床诊断中的交互性能方面取得了重大进展,但有几个局限性。主要使用中国病历可能会限制对其他语言和医疗保健系统的普遍性。尽管多样化,但 506 个病例的样本量可能无法完全捕捉到现实世界场景的复杂性,包括罕见疾病。模拟代理之间的交互可能无法完美地复制人与人之间的细微差别,需要进一步验证。当前的治疗计划评估系统是不够的,因为它没有考虑可行的替代策略,可能低估了 LLM 的性能。最后,OpenAI 的 LLM API 的广泛使用可能会增加环境负担,这可以通过在未来的研究中利用更小、更高效的开源模型来减轻。尽管存在这些限制,但人工智能医院框架和 MVME 基准为未来评估和提高 LLM 临床诊断能力的研究提供了坚实的基础。

伦理考虑

在我们关于 LLM 在临床诊断中应用的研究中,伦理考虑至关重要。我们认识到我们工作的潜在影响,并已采取措施解决这些问题。首先,为了确保透明度和可重复性,我们将发布我们研究中使用的可公开访问的在线病历数据。这允许其他研究人员验证和建立我们的发现,促进该领域的合作进展。然而,我们承认隐私保护的至关重要性。数据源经历了去识别化过程,在我们收集之前删除了敏感信息。此外,我们认识到人工智能系统中存在偏见的可能性,这可能会延续或扩大医疗保健领域的差异。为了降低这一风险,我们努力确保我们的病历数据集的多样性和代表性。. 通过主动解决这些问题,我们旨在实现人工智能辅助诊断的潜在好处,同时确保其负责任和公平的实施。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值