TxAGENT:基于多模态自适应模型的精准医学治疗智能体 - 哈佛医学院&MIT等

图片

摘要

精准治疗需要多模态自适应模型来生成个性化治疗建议。我们介绍了 TXAGENT,一种人工智能代理,它利用多步骤推理和实时检索生物医学知识,在包含 211 个工具的宝库中分析药物相互作用、禁忌症以及患者特定的治疗策略。TXAGENT评估药物在分子、药代动力学和临床层面的相互作用,根据患者的共病和同时使用的药物识别禁忌症,并根据个体病人的特征(包括年龄、遗传因素和疾病进展)定制治疗策略。TXAGENT从多个生物医学来源检索并综合证据,评估药物与病人病状的相互作用,并通过迭代推理完善治疗建议。它根据任务目标选择工具并执行结构化函数调用以解决需要临床推理和跨源验证的治疗任务。TOOLUNIVERSE汇集了来自可信来源的211种工具,包括自1939年以来所有美国食品药品监督管理局批准的药物以及Open Targets验证的临床见解。TXAGENT在五项新基准测试中胜过领先的LLM(大型语言模型)、工具使用模型和推理代理:DrugPC、BrandPC、GenericPC、TreatmentPC和DescriptionPC,涵盖3168项药物推理任务和456个个性化治疗方案。它在开放式药物推理任务中实现了92.1%的准确率,比GPT-4o高出最多25.8%,并在结构化的多步骤推理中胜过DeepSeek-R1(671B)。TXAGENT在药物名称变体和描述上进行泛化,保持品牌、仿制药和基于描述的药物参考之间的差异小于0.01,超过现有工具使用LLM的55%以上。通过整合多步推理、实时知识关联和工具辅助决策,TXAGENT确保治疗建议与既定的临床指南和现实世界证据一致,降低不良事件风险并改善治疗决策。在这里插入图片描述

*TXAGENT 代码和演示地址:*https://github.com/mims-harvard/TxAgent

*TOOLUNIVERSE 代码地址:*https://github.com/mims-harvard/ToolUniverse

*预训练模型地址:*https://huggingface.co/collections/mims-harvard/txagent-67c8e54a9d03a429bb0c622c

*论文原文:*https://arxiv.org/pdf/2503.10970

核心速览

研究背景

  1. 研究问题

    :这篇文章要解决的问题是如何在精准医疗中实现多模态自适应模型,以生成个性化的治疗建议。具体来说,研究如何利用人工智能代理(TXAGENT)结合多步推理和实时生物医学知识检索,分析药物相互作用、禁忌症和患者特定的治疗策略。

  2. 研究难点

    :该问题的研究难点包括:现有的大型语言模型(LLMs)缺乏实时访问更新的生物医学知识的能力,容易产生幻觉,无法可靠地推理多个临床变量;重新训练这些模型以包含新的医学见解计算成本高且不切实际;LLMs吸收大量开放网络数据,可能包含未经证实或故意误导的医学信息。

  3. 相关工作

    :该问题的研究相关工作包括:LLMs在治疗任务中的应用,如大规模预训练后根据医学数据进行微调;工具增强的LLMs,通过检索增强生成(RAG)机制缓解上述问题,但这些模型无法执行多步推理所需的治疗选择。

研究方法

这篇论文提出了TXAGENT,用于解决精准医疗中的多模态自适应模型问题。具体来说,

  1. TXAGENT架构

    :TXAGENT由三个主要组件组成:(1)TOOLUNIVERSE,一个包含211个生物医学工具的集合;(2)一个专门为多步推理和工具执行微调的LLM;(3)TOOLRAG模型,一个自适应的工具检索模型。TXAGENT通过目标驱动的工具选择和结构化函数调用来解决治疗任务,确保准确性和临床推理。

  2. TOOLUNIVERSE

    :TOOLUNIVERSE整合了来自可信来源的211个工具,包括自1939年以来所有获批的美国FDA药物和来自Open Targets的验证临床洞察。这些工具涵盖了药物机制、相互作用、临床指南和疾病注释的各个方面。
    在这里插入图片描述

  3. TOOLRAG模型

    :TOOLRAG模型是一个基于ML的检索系统,根据查询上下文动态选择TOOLUNIVERSE中最相关的工具。该模型通过将工具描述转换为语义嵌入,并从高相似度的工具中选择最佳候选工具。

在这里插入图片描述

  1. TXAGENT-INSTRUCT数据集

    :为了支持复杂的医学查询,TXAGENT使用TXAGENT-INSTRUCT数据集进行微调。该数据集由三个辅助代理系统生成:QUESTIONGEN用于生成治疗问题,TRACEGEN用于生成逐步推理痕迹。TXAGENT-INSTRUCT包含378,027个指令调优样本,涵盖177,626个推理步骤和281,695个函数调用。

实验设计

  1. 数据收集

    :TXAGENT-INSTRUCT数据集的信息来源于多个可信的生物医学数据库,包括OpenFDA、Open Targets和PrimeKG。数据集包括378,027个指令调优样本,涵盖177,626个推理步骤和281,695个函数调用。

  2. 实验设计

    :论文构建了五个新的基准测试(DrugPC、BrandPC、GenericPC、DescriptionPC、TreatmentPC),以全面评估药物选择、治疗个性化和推理鲁棒性。实验在多个选择和多步推理设置中进行,评估模型在结构化和非结构化查询中的表现。

  3. 样本选择

    :在DrugPC基准中,选择了2024年FDA批准的3,168种新药物,涵盖11个常见的治疗任务。BrandPC和GenericPC基准分别用品牌和通用名称替换药物名称,DescriptionPC基准用药物描述替换药物名称。TreatmentPC基准包含456个针对特定治疗场景的问题。

  4. 参数配置

    :TXAGENT基于80亿参数的Llama-3.1-8B-Instruct模型进行微调。训练过程中使用了多GPU分布式训练方法,确保模型能够处理大规模数据和长上下文窗口。

结果与分析

  1. DrugPC基准

    :在多选择设置中,TXAGENT的准确率为93.8%,超过Llama-3.1-70B-Instruct的75.1%。在开放式设置中,TXAGENT保持92.1%的准确率,而Llama-3.1-70B-Instruct下降到52.8%。相比之下,GPT-4o在开放式设置中的准确率为66.3%,低于TXAGENT的25.8%提升。

  2. BrandPC和GenericPC基准

    :TXAGENT在两个基准上的准确率分别为93.6%和93.7%,均优于纯LLMs和工具使用LLMs。与纯LLMs相比,TXAGENT分别提高了20.6%和16.4%的准确率。

  3. DescriptionPC基准

    :在仅答案正确的评估中,TXAGENT的准确率为90.4%,超过GPT-4o的85.9%。在药物识别和答案选择的两步评估中,TXAGENT在药物识别的准确率为60.1%,显示出其在药物识别方面的强大能力。

  4. TreatmentPC基准

    :在多选择设置中,TXAGENT的准确率为86.8%,超过Llama-3.1-8B-Instruct的56.1%。在开放式设置中,TXAGENT达到75.0%,超过Llama-3.1-8B-Instruct的33.1%。与DeepSeek-R1相比,TXAGENT在多选择设置中提高了10.3%的准确率,在开放式设置中提高了7.5%。

在这里插入图片描述

总体结论

这篇论文介绍了TXAGENT,一种通过多步推理和实时生物医学工具集成提供证据支持的治疗建议的AI代理。TXAGENT在多个基准测试中优于现有的LLMs和工具使用LLMs,展示了其在药物推理和个性化治疗推荐中的优越性。通过整合多步推理、实时知识定位和工具辅助决策,TXAGENT确保了治疗建议与临床指南和现实世界证据一致,减少了不良事件的风险并改善了治疗决策。未来的研究方向包括扩展TOOLUNIVERSE以涵盖更广泛的数据类型,以及在TXAGENT中整合内部知识以提高灵活性和探索任务的性能。

论文评价

优点与创新

  1. 多步推理与工具集成

    :TXAGENT通过多步推理和实时生物医学知识检索,整合了211个工具,能够在分子、药代动力学和临床层面上分析药物相互作用、禁忌症和患者特定的治疗策略。

  2. 透明推理轨迹

    :TXAGENT生成自然语言响应的同时,提供了透明的推理轨迹,详细记录了其决策过程的每一步。

  3. 工具选择与执行

    :TXAGENT根据任务目标选择工具,并执行结构化的函数调用以解决需要临床推理和跨源验证的治疗任务。

  4. 工具宇宙(TOOLUNIVERSE)

    :整合了来自可信来源的211个工具,包括自1939年以来所有获批的美国FDA药物和来自Open Targets的验证临床洞察。

  5. 性能优越

    :在五个新基准测试中表现优异,包括DrugPC、BrandPC、GenericPC、TreatmentPC和DescriptionPC,覆盖了3,168个药物推理任务和456个个性化治疗场景。

  6. 泛化能力

    :TXAGENT在药物名称变体和描述方面表现出色,维持了品牌、通用和描述之间药物引用的低方差(<0.01),超过了现有的工具使用LLMs。

  7. 实时知识更新

    :通过工具调用实时检索和综合来自多个不断更新的知识源的证据,确保治疗建议与临床指南和现实世界证据一致。

不足与反思

  1. 工具集成的局限性

    :尽管TOOLUNIVERSE包含了211个工具,但仍有一些数据类型无法访问,限制了TXAGENT解决更广泛问题的能力。

  2. 内部知识的不确定性量化

    :TXAGENT的内部知识不确定性量化仍是一个挑战,当前方法通过外部工具进行推理,提高了可验证性,但将内部知识与工具反馈结合可能会增强探索任务的灵活性。

  3. 多模态支持

    :TXAGENT目前仅处理自然语言输入,尚未支持其他模态如病理图像、电子健康记录(EHR)或基于网络的实验室结果。扩展多模态支持将使TXAGENT能够处理更复杂的病例和专门的临床分析。

关键问题及回答

问题1:TXAGENT如何在多步推理过程中确保每一步的准确性?

TXAGENT通过多步推理过程确保每一步的准确性,具体方法包括:

  1. 目标驱动的工具选择

    :TXAGENT使用TOOLRAG模型根据查询上下文动态选择最相关的工具。该模型将工具描述转换为语义嵌入,并从高相似度的工具中选择最佳候选工具。

  2. 结构化函数调用

    :TXAGENT在每个推理步骤中生成功能调用参数,并执行相应的工具来获取信息。这些工具返回的结果会反馈到推理过程中,用于下一步的决策。

  3. 逐步推理痕迹

    :TXAGENT生成详细的逐步推理痕迹,包括每一步的思考过程和工具调用的结果。这使得用户可以清楚地看到每一步的决策依据,增强了推理过程的透明度和可解释性。

  4. 迭代更新

    :TXAGENT在推理过程中不断迭代,根据工具返回的信息调整后续步骤,直到达到最终答案。这种迭代更新机制确保了每一步的推理都是基于最新的信息和前一步的结果。

问题2:TXAGENT在处理药物名称变体(如品牌名、通用名)时表现如何?

TXAGENT在处理药物名称变体时表现出色,具体表现如下:

  1. 低方差

    :TXAGENT在处理品牌名、通用名和描述时,准确率的方差非常低,小于0.01。这表明TXAGENT在不同药物名称表示下的表现高度一致,不会因为药物名称的不同而产生显著差异。

  2. 高准确率

    :在BrandPC和GenericPC基准上,TXAGENT的准确率分别为93.6%和93.7%,均优于纯LLMs和工具使用LLMs。与纯LLMs相比,TXAGENT分别提高了20.6%和16.4%的准确率。

  3. 多步推理能力

    :TXAGENT通过多步推理过程,能够有效地处理药物名称变体。即使在药物名称被替换为详细描述的情况下(DescriptionPC基准),TXAGENT仍能保持较高的准确率,显示出其在药物识别方面的强大能力。

问题3:TXAGENT在哪些基准测试中表现优于现有的LLMs和工具使用LLMs?

TXAGENT在多个基准测试中表现优于现有的LLMs和工具使用LLMs,具体包括:

  1. DrugPC基准

    :在多选择设置中,TXAGENT的准确率为93.8%,超过Llama-3.1-70B-Instruct的75.1%。在开放式设置中,TXAGENT保持92.1%的准确率,而Llama-3.1-70B-Instruct下降到52.8%。相比之下,GPT-4o在开放式设置中的准确率为66.3%,低于TXAGENT的25.8%提升。

  2. BrandPC和GenericPC基准

    :TXAGENT在两个基准上的准确率分别为93.6%和93.7%,均优于纯LLMs和工具使用LLMs。与纯LLMs相比,TXAGENT分别提高了20.6%和16.4%的准确率。

  3. DescriptionPC基准

    :在仅答案正确的评估中,TXAGENT的准确率为90.4%,超过GPT-4o的85.9%。在药物识别和答案选择的两步评估中,TXAGENT在药物识别的准确率为60.1%,显示出其在药物识别方面的强大能力。

  4. TreatmentPC基准

    :在多选择设置中,TXAGENT的准确率为86.8%,超过Llama-3.1-8B-Instruct的56.1%。在开放式设置中,TXAGENT达到75.0%,超过Llama-3.1-8B-Instruct的33.1%。与DeepSeek-R1相比,TXAGENT在多选择设置中提高了10.3%的准确率,在开放式设置中提高了7.5%。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

优快云粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

优快云粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值