近年来,大语言模型 (LLMs) 在文本理解和生成方面展现出惊人的能力,为医学知识的可靠合成、提取和总结提供了前所未有的机遇。
《MALADE: Orchestration of LLM-powered Agents with Retrieval Augmented Generation for Pharmacovigilance》聚焦于药物警戒 (Pharmacovigilance, PhV) 这一重要领域,深入探讨如何利用 LLMs 从医学文献、临床记录和药物标签等多种文本来源中识别药物不良事件 (Adverse Drug Events, ADEs)。然而,药物和结果术语的多样性,以及 ADE 描述通常隐藏在大量叙述性文本中,使得 ADE 提取任务极具挑战性。(关注公众号 “赛文AI药学”,获取更多AI与药学的前沿内容)
针对上述挑战,本文提出了一种名为 MALADE (Multiple Agents powered by LLMs for ADE Extraction) 的新型多智能体系统。该系统是首个基于 LLMs 的、结合检索增强生成 (Retrieval Augmented Generation, RAG) 技术、有效进行 ADE 提取的多智能体协作系统。MALADE 利用 RAG 技术,将从文本资源中提取的相关信息增强输入给 LLM 的查询,并指示 LLM 生成与增强数据一致的响应。
MALADE 的核心优势
MALADE 是一个通用的、与 LLM 无关的架构,其独特优势包括:
-
利用多种外部数据源: 包括医学文献、药物标签和 FDA 工具 (例如 OpenFDA 药物信息 API) 等。
-
结构化输出药物-结果关联: 以结构化格式提取药物-结果关联以及关联强度,并提供已建立关联的解释。
-
提供关联的解释: 得益于 RAG 组件,MALADE 可以提供关联的解释,方便人类专家理解和验证。
MALADE 的性能表现
在 FDA 药物标签数据上,MALADE 系统表现出色。使用 GPT-4 Turbo 或 GPT-4o 实例化 MALADE,其在 OMOP ADEs 基准数据集上的 ROC 曲线下面积 (AUC) 分别达到了 0.85 和 0.90,优于现有基线模型。
MALADE 的系统架构
MALADE 系统通过三个主要智能体的协作完成 ADE 提取任务,如图 1 所示:
-
DrugFinder: 负责从医学数据库 (例如 MIMIC-IV) 中识别每个药物类别的代表性药物。
-
DrugAgent: 负责从外部文本知识库 (例如 FDA 药物标签数据库) 中收集这些药物的副作用信息。
-
CategoryAgent: 负责总结药物类别对不良事件的影响,并生成最终的结构化报告。
每个智能体都与一个 Critic 智能体配对,后者负责验证其行为和响应。智能体会根据 Critic 的反馈进行迭代修正,直到 Critic 满意为止。这种 Agent-Critic 交互模式显著提高了系统的可靠性。
Agent-Critic 交互机制
Agent-Critic 交互模式是 MALADE 系统的核心设计模式,类似于强化学习中的 Actor/Critic 方法。
-
Agent: 负责处理外部输入和输出,根据目标、指令和可用的工具及资源构建查询序列。
-
Critic: 负责验证 Agent 的推理步骤和指令的合规性,并提供反馈。
这种协同关系类似于复杂性理论中使用的交互式证明系统:证明者 (Agent) 提出解决方案,验证者 (Critic) 检查解决方案的有效性。
实验评估
本文通过三个研究问题对 MALADE 进行了全面评估:
-
RQ1: MALADE 能否有效识别 ADEs? (实验结果表明 MALADE 能够有效识别 ADEs,并达到较高的 AUC 和 F1 分数)
-
RQ2: Agent-Critic 交互模式能否有效提高系统可靠性? (消融实验表明 Agent-Critic 交互模式能够显著提高系统性能)
-
RQ3: MALADE 提供的解释是否有助于系统改进? (临床医生审查表明,MALADE 的解释与人类专家推理一致,并有助于理解系统的失败模式)
MALADE 的设计原则
MALADE 的设计遵循以下三个通用原则:
-
Agent-Critic 交互: 提高系统准确性和可靠性。
-
复杂任务分解: 将复杂任务分解为更小的子任务,由专门的智能体负责,提高模块化、可维护性和可靠性。
-
LLM 最小化: 仅在必要时使用 LLM,对于可以用标准编程范例明确表达的任务,直接使用代码处理,以提高可靠性并降低成本。
MALADE 系统展示了基于 LLMs 的多智能体系统在药物警戒领域的巨大潜力。其设计原则和方法具有通用性,可以应用于药物警戒领域的其他问题,以及需要基于多种知识或数据源进行可靠自动响应的临床医学问题。
未来的研究方向包括:
-
利用 EHR 数据进行 ADE 提取,以估计药物标签数据中未详细说明的不良事件的罕见程度。
-
详细评估本地开源 LLMs (例如 LlaMA、Grok 和 Mistral) 的性能。
-
进一步优化系统,例如增强对结构化输入和输出的使用。
总而言之,MALADE 不仅是一个用于 ADE 提取的有效系统,更是一个构建可靠、基于证据的医疗问答系统的路线图。 它为未来基于多智能体系统的药物警戒和医疗应用研究提供了新的思路和方向。
往期内容荐读:
ChatGPT 在临床药学中的有效性以及人工智能在药物治疗管理中的作用
DDI-GPT:使用知识图谱增强的大模型对药物相互作用进行可解释的预测
诺奖得主David Baker最新Science论文:药学+AI领域迎来新机遇!
AI与药学:ChatGPT与临床培训——药学博士(Pharm-D)学生的看法、担忧和实践
人工智能大模型在用药处方审核的应用潜力:一项跨 12 个临床专科的前瞻性研究
AI用于研究药物扩大适应症:大模型架起药物分子结构与适应症的桥梁
AI与药学:DrugGPT助力减少英国每年2.37亿次用药错误
CancerGPT :基于大语言模型的罕见癌症药物对协同作用少样本预测研究
欢迎关注公众号 “赛文AI药学”!
赛文AI药学,致力于探索人工智能在药学场景中的创新与应用。
1130

被折叠的 条评论
为什么被折叠?



