通过多智能体对话大型语言模型提升诊断能力 - 华西医院、四川大学等

最新推荐文章于 2025-06-11 10:52:50 发布

小敢摘葡萄

最新推荐文章于 2025-06-11 10:52:50 发布

阅读量796

点赞数 9

文章标签：语言模型人工智能自然语言处理学习开发语言大数据语音识别

本文链接：https://blog.youkuaiyun.com/xiaoganbuaiuk/article/details/146591528

版权

摘要

大型语言模型（LLMs）在医疗保健任务中展现出潜力，但在复杂的医疗场景中面临挑战。我们开发了一个用于疾病诊断的多代理对话（MAC）框架，受到临床多学科团队讨论的启发。使用302个罕见病例，我们评估了GPT-3.5、GPT-4和MAC在医学知识和临床推理方面的表现。在初次和后续咨询中，MAC的表现均优于单一模型，诊断准确率更高，建议的检测项目也更多。当使用四个医生代理和一个监督代理，以GPT-4作为基础模型时，取得了最佳性能。MAC在重复运行中表现出高度一致性。进一步的比较分析显示，MAC在性能以及输出标记数量上也优于包括思维链（CoT）、自我精炼和自我一致性在内的其他方法。该框架显著提升了LLMs的诊断能力，有效地桥接了理论知识与实际的临床应用。我们的发现突显了多代理LLMs在医疗保健中的潜力，并建议对其临床实施进行进一步研究。

近期大型语言模型（LLMs）的显著进步显著增强了它们在医学领域的能力，导致对其潜在应用的探索增加。这些模型配备了庞大的医学数据库和先进的分析算法，为这些挑战提供了有希望的解决方案。这些模型已经显示出在简单的医疗任务方面的熟练度，如回答医学知识查询和诊断常见疾病，并需要进一步研究以测试它们在处理更实际和复杂医疗任务中的有效性。其中，提供准确的诊断一直是重要且实用的医学需求。

罕见疾病的诊断是最复杂和挑战性的诊断任务之一。罕见疾病的患病率仅为100,000分之一。专业知识的稀缺以及低患病率导致治疗延误。此外，症状的复杂性和变异性可能导致频繁的误诊或延迟诊断。

尽管像GPT-4这样的LLMs在医学知识和某些潜在应用方面表现出相当的熟练度，但它们在复杂现实世界临床场景（如疾病诊断）中的表现仍受到质疑。先前的研究已经展示了LLMs在复杂病例诊断中的局限性。因此，越来越多的研究关注如何更好地利用LLMs自身的训练数据和内在能力来提升它们在实际医疗任务中的表现。

多智能体系统就是此类尝试之一。在大型语言模型的背景下，代理是指能够接收输入并采取行动以实现特定目标的系统。例如，当互动疾病范围从每10万人中5例到76例时，这些疾病通常难以获得准确的诊断，因此显著增强了大型语言模型管理复杂任务的能力，包括解决数学问题和执行

检索增强的代码生成。采用多代理Per框架可能通过多代理对话（MAC）促进动态和互动的诊断过程，其中代理将讨论同一问题并最终就输出达成一致。在这种情况下，不同的代理可以模拟医疗团队的协作特性，模拟在临床实践中常用的多学科团队（MDT）讨论，以解决复杂的医疗任务。通过促进单一代理模型可能无法实现的深入分析，它们有潜力提高大型语言模型在罕见疾病诊断中的性能。因此，MAC可以作为有价值的工具，帮助医生分析患者信息并提供有用的第二意见。

本研究的目的是开发一种多代理对话（MAC）框架，可用于临床实践中执行诊断任务。本研究还比较了GPT-3.5、GPT-4和MAC的知识库和诊断能力。

https://doi.org/10.1038/s41746-025-01550-0

核心速览

研究背景

研究问题

：这篇文章要解决的问题是如何利用多智能体对话（MAC）框架来提升大型语言模型（LLMs）在疾病诊断中的能力，特别是在复杂医学场景中的应用。
研究难点

：该问题的研究难点包括：LLMs在处理复杂真实世界临床场景中的诊断任务时表现有限；罕见疾病的低发病率和专业知识的稀缺导致诊断延迟或误诊；如何有效地将理论知识与实际临床应用相结合。
相关工作

：该问题的研究相关工作包括：LLMs在医学知识问答和常见疾病诊断中的应用；多智能体系统在复杂任务管理中的应用；以及Chain of Thought（CoT）提示、自我修正和自我一致性等方法在提升模型性能方面的研究。

研究方法

这篇论文提出了一个多智能体对话（MAC）框架，用于解决LLMs在复杂医学场景中的诊断能力问题。具体来说，

多智能体对话框架：首先，开发了一个基于GPT-4的多智能体对话框架，模拟多学科团队讨论的临床决策过程。该框架包括一个管理员代理和三个医生代理，以及一个监督代理。
数据收集与预处理：从Medline数据库中收集了302种罕见疾病的临床案例报告，经过筛选和预处理后，用于模拟真实世界的临床咨询场景。
任务设计：为每个病例设计了两个场景：初级咨询和后续咨询。初级咨询模拟只有基本患者信息的情况，后续咨询则模拟患者已进行所有诊断测试的情况。
评估指标：使用多个评估指标来衡量模型的性能，包括疾病特定知识的准确性、诊断准确性和推荐测试的有用性。

实验设计

数据收集

：从Orphanet数据库中选择了302种罕见疾病，确保每种疾病有1到9种随机选择。从Medline数据库中筛选出2022年1月之后的临床案例报告。
样本选择

：采用归一化加权随机抽样方法，确保样本的代表性。每个病例的搜索结果由两名专科医生独立筛选，最终通过小组讨论确定符合条件的案例报告。
参数配置

：在MAC框架中，使用GPT-3.5和GPT-4作为基础模型，分别测试了不同数量的医生代理（2到5个）和是否包含监督代理对性能的影响。

结果与分析

疾病特定知识：GPT-3.5、GPT-4和MAC在所有测试方面（包括可能伤害的可能性、可能伤害的程度和偏见）的平均得分均超过4。
初级咨询：在初级咨询中，使用GPT-4作为基础模型的MAC框架在大多数可能诊断和进一步诊断测试的有用性方面显著优于单模型（GPT-3.5和GPT-4）。具体表现为：最可能诊断的准确率为34.11%，可能诊断的准确率为48.12%，进一步诊断测试的有用性为78.26%。
后续咨询：在后续咨询中，使用GPT-4作为基础模型的MAC框架同样表现出更高的诊断准确性。最可能诊断的准确率为37.86%，可能诊断的准确率为59.71%。
可靠性分析：通过三次重复测试，结果显示MAC框架在不同设置下的性能变化较小，Fleiss’ kappa分析显示23个评估中有中度一致性（>0.4），5个评估中有公平一致性（0.35-0.4）。
错误分析：诊断错误分为四类，推荐测试的错误分为三级。分析表明，MAC框架在提供更接近正确答案的建议方面表现更好。
成本分析：使用GPT-4作为基础模型时，初级咨询和后续咨询的平均成本分别为0.12美元和0.17美元。

总体结论

这篇论文通过开发多智能体对话（MAC）框架，显著提升了LLMs在罕见疾病诊断中的能力。MAC框架在初级和后续咨询中均表现出比单模型更高的诊断准确性和有用性。研究表明，更强大的基础模型（如GPT-4）、适量的医生代理数量（如四个）以及监督代理的存在对框架性能的提升至关重要。与其他方法（如CoT提示、自我修正和自我一致性）相比，MAC框架在输出令牌数量和诊断性能方面表现更优。该研究为LLMs在医疗领域的应用提供了新的思路，并建议进一步研究其在临床实践中的实施和优化。

论文评价

优点与创新

多代理对话框架

：开发了基于GPT-4的多代理对话（MAC）框架，模拟临床多学科团队讨论，显著提高了罕见疾病诊断的准确性。
高一致性

：MAC框架在重复运行中表现出高度一致性， Fleiss’ kappa分析显示在23个评估中有中度一致性，在5个评估中有公平一致性。
优于单模型

：MAC框架在初级和后续咨询中均显著优于单一的GPT-3.5和GPT-4模型，特别是在诊断准确性和建议测试的有用性方面。
多代理协作

：通过多代理对话，模拟了医疗团队的协作性质，能够进行更深入的分析和反思，揭示了疾病的潜在原因。
成本效益

：进行了成本分析，使用GPT-4作为基础模型的初级咨询平均成本为0.12美元，后续咨询为0.17美元。
广泛适用性

：MAC框架不仅适用于GPT-4，还能显著提高新发布的GPT-4o-mini的诊断性能，显示出其广泛的适用性。
多种方法比较

：与其他方法（如Chain of Thought, Self-Refine, Self-Consistency）进行比较，MAC在所有评估指标上均表现最佳。

不足与反思

样本量小

：尽管采用了归一化随机抽样，但样本量相对较小，仅代表初步探索，未来研究应扩大样本量和疾病范围以进一步验证和完善MAC框架的性能。
数据收集的主观性

：初级咨询是从患者信息中手动提取的，尽管由医疗专业人员执行，但仍可能存在主观偏差，未来研究应考虑更客观的数据收集方法。
人类参与的任务

：案例获取和评估过程中涉及人类任务，如手动筛选病例报告和评估LLM输出结果的可靠性，随着LLM技术的进步，未来研究应减少对这些人类输入的依赖。
解释性问题

：尽管MAC系统提供了对模型推理过程的见解，但大型语言模型在其输出中的解释能力仍然存在挑战，未来研究应继续探索提高模型解释性的方法。

关键问题及回答

问题1：多智能体对话（MAC）框架的具体设计是如何实现的？

多智能体对话（MAC）框架基于GPT-4开发，模拟多学科团队讨论的临床决策过程。该框架包括一个管理员代理和三个医生代理，以及一个监督代理。管理员代理负责向对话代理呈现患者信息和任务，医生代理则根据输入进行分析和讨论，监督代理则负责评估和协调讨论过程。具体实现上，管理员代理首先展示患者的基本信息，然后医生代理们就患者的症状、病史和初步检查结果进行讨论，提出可能的诊断和进一步的检查建议。监督代理则负责评估这些建议的合理性和完整性，并在必要时提出补充或修改意见。整个对话过程持续进行，直到所有代理达成共识或达到预定的轮数限制（本研究设定为13轮）。

问题2：在初级咨询和后续咨询中，MAC框架的表现如何？其原因是什么？

在初级咨询中，使用GPT-4作为基础模型的MAC框架在大多数可能诊断和进一步诊断测试的有用性方面显著优于单模型（GPT-3.5和GPT-4）。具体表现为：最可能诊断的准确率为34.11%，可能诊断的准确率为48.12%，进一步诊断测试的有用性为78.26%。在后续咨询中，使用GPT-4作为基础模型的MAC框架同样表现出更高的诊断准确性。最可能诊断的准确率为37.86%，可能诊断的准确率为59.71%。这些改进主要归因于多智能体之间的互动和协作，使得框架能够综合多个代理的观点和建议，提供更全面和准确的诊断信息。

问题3：MAC框架在可靠性分析和错误分析中表现如何？

通过三次重复测试，MAC框架在不同设置下的性能变化较小，显示出较高的稳定性。Fleiss’ kappa分析显示，在23个评估中有中度一致性（>0.4），在5个评估中有公平一致性（0.35-0.4），表明MAC框架在不同条件下的表现具有较高的一致性和可靠性。在错误分析中，诊断错误被分为四类：非常接近正确答案但不完全准确、与正确答案密切相关但可能有帮助、与正确答案相关但不一定有实际帮助、与正确答案无密切关联。推荐测试的错误被分为三级：强烈认为测试有用、认为测试有用、认为测试中立或无用。分析结果表明，MAC框架在提供更接近正确答案的建议方面表现更好，能够更准确地指出需要进一步检查的领域，从而提高诊断的准确性和有用性。