TxAGENT：基于多模态自适应模型的精准医学治疗智能体 - 哈佛医学院&MIT等

最新推荐文章于 2025-06-12 22:27:36 发布

小敢摘葡萄

最新推荐文章于 2025-06-12 22:27:36 发布

阅读量574

点赞数 7

文章标签：深度学习自动化人工智能 transformer langchain

本文链接：https://blog.youkuaiyun.com/xiaoganbuaiuk/article/details/146497416

版权

摘要

精准治疗需要多模态自适应模型来生成个性化治疗建议。我们介绍了 TXAGENT，一种人工智能代理，它利用多步骤推理和实时检索生物医学知识，在包含 211 个工具的宝库中分析药物相互作用、禁忌症以及患者特定的治疗策略。TXAGENT评估药物在分子、药代动力学和临床层面的相互作用，根据患者的共病和同时使用的药物识别禁忌症，并根据个体病人的特征（包括年龄、遗传因素和疾病进展）定制治疗策略。TXAGENT从多个生物医学来源检索并综合证据，评估药物与病人病状的相互作用，并通过迭代推理完善治疗建议。它根据任务目标选择工具并执行结构化函数调用以解决需要临床推理和跨源验证的治疗任务。TOOLUNIVERSE汇集了来自可信来源的211种工具，包括自1939年以来所有美国食品药品监督管理局批准的药物以及Open Targets验证的临床见解。TXAGENT在五项新基准测试中胜过领先的LLM（大型语言模型）、工具使用模型和推理代理：DrugPC、BrandPC、GenericPC、TreatmentPC和DescriptionPC，涵盖3168项药物推理任务和456个个性化治疗方案。它在开放式药物推理任务中实现了92.1%的准确率，比GPT-4o高出最多25.8%，并在结构化的多步骤推理中胜过DeepSeek-R1（671B）。TXAGENT在药物名称变体和描述上进行泛化，保持品牌、仿制药和基于描述的药物参考之间的差异小于0.01，超过现有工具使用LLM的55%以上。通过整合多步推理、实时知识关联和工具辅助决策，TXAGENT确保治疗建议与既定的临床指南和现实世界证据一致，降低不良事件风险并改善治疗决策。在这里插入图片描述

*TXAGENT 代码和演示地址：*https://github.com/mims-harvard/TxAgent

*TOOLUNIVERSE 代码地址：*https://github.com/mims-harvard/ToolUniverse

*预训练模型地址：*https://huggingface.co/collections/mims-harvard/txagent-67c8e54a9d03a429bb0c622c

*论文原文：*https://arxiv.org/pdf/2503.10970

核心速览

研究背景

研究问题

：这篇文章要解决的问题是如何在精准医疗中实现多模态自适应模型，以生成个性化的治疗建议。具体来说，研究如何利用人工智能代理（TXAGENT）结合多步推理和实时生物医学知识检索，分析药物相互作用、禁忌症和患者特定的治疗策略。
研究难点

：该问题的研究难点包括：现有的大型语言模型（LLMs）缺乏实时访问更新的生物医学知识的能力，容易产生幻觉，无法可靠地推理多个临床变量；重新训练这些模型以包含新的医学见解计算成本高且不切实际；LLMs吸收大量开放网络数据，可能包含未经证实或故意误导的医学信息。
相关工作

：该问题的研究相关工作包括：LLMs在治疗任务中的应用，如大规模预训练后根据医学数据进行微调；工具增强的LLMs，通过检索增强生成（RAG）机制缓解上述问题，但这些模型无法执行多步推理所需的治疗选择。

研究方法

这篇论文提出了TXAGENT，用于解决精准医疗中的多模态自适应模型问题。具体来说，

TXAGENT架构

：TXAGENT由三个主要组件组成：（1）TOOLUNIVERSE，一个包含211个生物医学工具的集合；（2）一个专门为多步推理和工具执行微调的LLM；（3）TOOLRAG模型，一个自适应的工具检索模型。TXAGENT通过目标驱动的工具选择和结构化函数调用来解决治疗任务，确保准确性和临床推理。
TOOLUNIVERSE

：TOOLUNIVERSE整合了来自可信来源的211个工具，包括自1939年以来所有获批的美国FDA药物和来自Open Targets的验证临床洞察。这些工具涵盖了药物机制、相互作用、临床指南和疾病注释的各个方面。
TOOLRAG模型

：TOOLRAG模型是一个基于ML的检索系统，根据查询上下文动态选择TOOLUNIVERSE中最相关的工具。该模型通过将工具描述转换为语义嵌入，并从高相似度的工具中选择最佳候选工具。

在这里插入图片描述

TXAGENT-INSTRUCT数据集

：为了支持复杂的医学查询，TXAGENT使用TXAGENT-INSTRUCT数据集进行微调。该数据集由三个辅助代理系统生成：QUESTIONGEN用于生成治疗问题，TRACEGEN用于生成逐步推理痕迹。TXAGENT-INSTRUCT包含378,027个指令调优样本，涵盖177,626个推理步骤和281,695个函数调用。

实验设计

数据收集

：TXAGENT-INSTRUCT数据集的信息来源于多个可信的生物医学数据库，包括OpenFDA、Open Targets和PrimeKG。数据集包括378,027个指令调优样本，涵盖177,626个推理步骤和281,695个函数调用。
实验设计

：论文构建了五个新的基准测试（DrugPC、BrandPC、GenericPC、DescriptionPC、TreatmentPC），以全面评估药物选择、治疗个性化和推理鲁棒性。实验在多个选择和多步推理设置中进行，评估模型在结构化和非结构化查询中的表现。
样本选择

：在DrugPC基准中，选择了2024年FDA批准的3,168种新药物，涵盖11个常见的治疗任务。BrandPC和GenericPC基准分别用品牌和通用名称替换药物名称，DescriptionPC基准用药物描述替换药物名称。TreatmentPC基准包含456个针对特定治疗场景的问题。
参数配置

：TXAGENT基于80亿参数的Llama-3.1-8B-Instruct模型进行微调。训练过程中使用了多GPU分布式训练方法，确保模型能够处理大规模数据和长上下文窗口。

结果与分析

DrugPC基准

：在多选择设置中，TXAGENT的准确率为93.8%，超过Llama-3.1-70B-Instruct的75.1%。在开放式设置中，TXAGENT保持92.1%的准确率，而Llama-3.1-70B-Instruct下降到52.8%。相比之下，GPT-4o在开放式设置中的准确率为66.3%，低于TXAGENT的25.8%提升。
BrandPC和GenericPC基准

：TXAGENT在两个基准上的准确率分别为93.6%和93.7%，均优于纯LLMs和工具使用LLMs。与纯LLMs相比，TXAGENT分别提高了20.6%和16.4%的准确率。
DescriptionPC基准

：在仅答案正确的评估中，TXAGENT的准确率为90.4%，超过GPT-4o的85.9%。在药物识别和答案选择的两步评估中，TXAGENT在药物识别的准确率为60.1%，显示出其在药物识别方面的强大能力。
TreatmentPC基准

：在多选择设置中，TXAGENT的准确率为86.8%，超过Llama-3.1-8B-Instruct的56.1%。在开放式设置中，TXAGENT达到75.0%，超过Llama-3.1-8B-Instruct的33.1%。与DeepSeek-R1相比，TXAGENT在多选择设置中提高了10.3%的准确率，在开放式设置中提高了7.5%。

在这里插入图片描述

总体结论

这篇论文介绍了TXAGENT，一种通过多步推理和实时生物医学工具集成提供证据支持的治疗建议的AI代理。TXAGENT在多个基准测试中优于现有的LLMs和工具使用LLMs，展示了其在药物推理和个性化治疗推荐中的优越性。通过整合多步推理、实时知识定位和工具辅助决策，TXAGENT确保了治疗建议与临床指南和现实世界证据一致，减少了不良事件的风险并改善了治疗决策。未来的研究方向包括扩展TOOLUNIVERSE以涵盖更广泛的数据类型，以及在TXAGENT中整合内部知识以提高灵活性和探索任务的性能。

论文评价

优点与创新

多步推理与工具集成

：TXAGENT通过多步推理和实时生物医学知识检索，整合了211个工具，能够在分子、药代动力学和临床层面上分析药物相互作用、禁忌症和患者特定的治疗策略。
透明推理轨迹

：TXAGENT生成自然语言响应的同时，提供了透明的推理轨迹，详细记录了其决策过程的每一步。
工具选择与执行

：TXAGENT根据任务目标选择工具，并执行结构化的函数调用以解决需要临床推理和跨源验证的治疗任务。
工具宇宙（TOOLUNIVERSE）

：整合了来自可信来源的211个工具，包括自1939年以来所有获批的美国FDA药物和来自Open Targets的验证临床洞察。
性能优越

：在五个新基准测试中表现优异，包括DrugPC、BrandPC、GenericPC、TreatmentPC和DescriptionPC，覆盖了3,168个药物推理任务和456个个性化治疗场景。
泛化能力

：TXAGENT在药物名称变体和描述方面表现出色，维持了品牌、通用和描述之间药物引用的低方差（<0.01），超过了现有的工具使用LLMs。
实时知识更新

：通过工具调用实时检索和综合来自多个不断更新的知识源的证据，确保治疗建议与临床指南和现实世界证据一致。

不足与反思

工具集成的局限性

：尽管TOOLUNIVERSE包含了211个工具，但仍有一些数据类型无法访问，限制了TXAGENT解决更广泛问题的能力。
内部知识的不确定性量化

：TXAGENT的内部知识不确定性量化仍是一个挑战，当前方法通过外部工具进行推理，提高了可验证性，但将内部知识与工具反馈结合可能会增强探索任务的灵活性。
多模态支持

：TXAGENT目前仅处理自然语言输入，尚未支持其他模态如病理图像、电子健康记录（EHR）或基于网络的实验室结果。扩展多模态支持将使TXAGENT能够处理更复杂的病例和专门的临床分析。

关键问题及回答

问题1：TXAGENT如何在多步推理过程中确保每一步的准确性？

TXAGENT通过多步推理过程确保每一步的准确性，具体方法包括：

目标驱动的工具选择

：TXAGENT使用TOOLRAG模型根据查询上下文动态选择最相关的工具。该模型将工具描述转换为语义嵌入，并从高相似度的工具中选择最佳候选工具。
结构化函数调用

：TXAGENT在每个推理步骤中生成功能调用参数，并执行相应的工具来获取信息。这些工具返回的结果会反馈到推理过程中，用于下一步的决策。
逐步推理痕迹

：TXAGENT生成详细的逐步推理痕迹，包括每一步的思考过程和工具调用的结果。这使得用户可以清楚地看到每一步的决策依据，增强了推理过程的透明度和可解释性。
迭代更新

：TXAGENT在推理过程中不断迭代，根据工具返回的信息调整后续步骤，直到达到最终答案。这种迭代更新机制确保了每一步的推理都是基于最新的信息和前一步的结果。

问题2：TXAGENT在处理药物名称变体（如品牌名、通用名）时表现如何？

TXAGENT在处理药物名称变体时表现出色，具体表现如下：

低方差

：TXAGENT在处理品牌名、通用名和描述时，准确率的方差非常低，小于0.01。这表明TXAGENT在不同药物名称表示下的表现高度一致，不会因为药物名称的不同而产生显著差异。
高准确率

：在BrandPC和GenericPC基准上，TXAGENT的准确率分别为93.6%和93.7%，均优于纯LLMs和工具使用LLMs。与纯LLMs相比，TXAGENT分别提高了20.6%和16.4%的准确率。
多步推理能力

：TXAGENT通过多步推理过程，能够有效地处理药物名称变体。即使在药物名称被替换为详细描述的情况下（DescriptionPC基准），TXAGENT仍能保持较高的准确率，显示出其在药物识别方面的强大能力。

问题3：TXAGENT在哪些基准测试中表现优于现有的LLMs和工具使用LLMs？

TXAGENT在多个基准测试中表现优于现有的LLMs和工具使用LLMs，具体包括：

DrugPC基准

：在多选择设置中，TXAGENT的准确率为93.8%，超过Llama-3.1-70B-Instruct的75.1%。在开放式设置中，TXAGENT保持92.1%的准确率，而Llama-3.1-70B-Instruct下降到52.8%。相比之下，GPT-4o在开放式设置中的准确率为66.3%，低于TXAGENT的25.8%提升。
BrandPC和GenericPC基准

：TXAGENT在两个基准上的准确率分别为93.6%和93.7%，均优于纯LLMs和工具使用LLMs。与纯LLMs相比，TXAGENT分别提高了20.6%和16.4%的准确率。
DescriptionPC基准

：在仅答案正确的评估中，TXAGENT的准确率为90.4%，超过GPT-4o的85.9%。在药物识别和答案选择的两步评估中，TXAGENT在药物识别的准确率为60.1%，显示出其在药物识别方面的强大能力。
TreatmentPC基准

：在多选择设置中，TXAGENT的准确率为86.8%，超过Llama-3.1-8B-Instruct的56.1%。在开放式设置中，TXAGENT达到75.0%，超过Llama-3.1-8B-Instruct的33.1%。与DeepSeek-R1相比，TXAGENT在多选择设置中提高了10.3%的准确率，在开放式设置中提高了7.5%。