大语言模型在药物开发中的应用:当前进展与未来方向
药物开发是一个极其复杂且耗时耗力的过程,传统上以高成本和高失败率为特征。新兴的大型语言模型(LLMs)有望彻底改变药物研发领域,展现出前所未有的数据分析与生成能力。然而,其变革潜力取决于能否有效克服一系列内在挑战。本文认为, 将 LLMs 成功整合到药物开发中的关键,在于聚焦提升其可靠性、可解释性,以及与现有生物医学知识和实验验证体系的协同能力。我们系统性地阐述了 LLMs 在药物开发流程中的当前应用,批判性地审视了其当前面临的主要挑战——包括 数据质量、 模型可解释性及 伦理考量——并对未来实现其全面且负责任影响所必需的研究方向提出科学展望。

1. 引言
药物开发是一个极其复杂且周期漫长的过程,通常包括多个关键阶段,如靶点识别、分子结构设计、临床前研究以及临床试验。该复杂流程不仅需要巨额的资金投入,还耗费大量时间,并伴随着较高的失败率。此外,传统的药物开发主要依赖于人工筛选和湿实验验证,导致效率低下,难以及时筛选出安全且有效的候选药物。近年来,人工智能(AI)技术,尤其是以 GPT、Llama 等为代表的新兴大型语言模型(LLMs)的迅速发展,正在深刻变革药物发现与开发领域。LLMs 作为基于深度学习的 AI 系统,具备卓越的自然语言理解、数据分析和文本生成能力,从而在提升研发效率、降低开发成本、提高药物开发成功率等方面展现出巨大潜力。然而,实现这种变革性的潜力并非自然发生,其前提是必须全面认识当前 LLMs 的优势,尤其是其局限性。本文提出,尽管 LLMs 预示着一种范式的转变,但其在药物开发中的有效且合乎伦理的应用,取决于对数据监管、模型透明性以及对其输出结果的严格验证的共同努力。为此,本文系统阐述了 LLMs 在药物开发中的研究进展,并详细分析了其在靶点识别与药物筛选、药物分子结构设计与优化、药物再利用、临床前研究及临床试验等环节中的当前应用。同时,深入探讨了当前 LLMs 所面临的主要挑战,并科学预测了未来研究方向,旨在以负责任且有效的方式发挥其潜力。
2. LLMs在药物开发中的当前应用
在整个药物开发周期中,LLMs 可广泛应用于多个关键环节,包括靶点发现与药物筛选、药物分子设计与优化、药物再利用、临床前研究和临床试验等 (图 1)。

LLMs 能够有效预测药物- 靶点相互作用并显著简化识别筛选过程,从而大大提升了药物发现过程的效率与准确性。
- 不同于传统 LLMs 仅能识别线性蛋白质序列信息,Llama-Gram 模型创新地结合了三维蛋白质折叠信息与分子图结构,并对预测中的不确定性进行量化分析,显著提高了蛋白质- 配体相互作用预测的准确性和可靠性。
- 通过采用正样本学习策略,G 蛋白偶联受体(GPCR) LLM 成功实现了对潜在靶向 GPCR 化合物的精确鉴定与筛选,该方法不仅降低了假阴性率,同时还减少了负样本标注的时间成本,因此显著提升了筛选过程的精准性与效率。
- ProtChat 系统有效融合了蛋白质大语言模型(PLLM)的蛋白质分析能力与 LLM 的自然语言处理优势,从而能够高效自动完成蛋白质- 药物相互作用预测任务。该集成技术不仅有效降低了蛋白质分析的时间成本和人力投入,还为药物发现领域提供了创新性的研究思路和方法学支持。
LLMs 的兴起为药物分子结构的创新设计和优化提供了极具前景的新途径。
- 在分子设计领域,研究人员开发了
3DSMILES-GPT模型,该模型创新性地采用 token-only 框架解析通过自然语言编码的二维及三维分子结构信息,能够针对特定靶标结构生成亲和力显著提高的三维类药物分子。此外,FragGPT通过采用无序简化分子输入行系统(FU-SMILES)这一创新性分子表征方法,实现了对分子片段结构的全面整合,从而高效设计药物分子,有效克服了传统按原子顺序生成新分子方法的局限性,在从头设计(de novo design)和片段接头设计等领域展现出卓越的生成能力。 - 在分子优化方面,研究人员基于 Llama2-7B-Chat 大型语言模型开发了
DrugAssist系统,该系统通过多轮人机交互对话作为优化指导,能够对初始生成的不完善药物分子进行结构优化,不仅支持针对单一特性的定向优化,还能实现多维特性的综合提升。
鉴于新药开发过程需要投入巨大的时间和经济成本,药物再利用通过挖掘现有药物的治疗潜力,为新药研发提供了一个富有前景的替代方案。凭借快速解码大量相关文本数据的优势,LLMs 如 ChatGPT 能系统性地整合文献信息和临床数据,高效筛选潜在的再利用药物候选物,从而显著降低药物再利用研究的人力和物力成本,同时提高研究效率和筛选准确性。研究人员利用 LLMs 开发的 DrugReAlign 药物再利用框架突破了传统数据获取的范围限制,能够广泛收集靶蛋白信息和靶点- 药物空间交互数据,并将其作为多来源提示,从而有效地探索现有药物的治疗潜力。
LLMs 在辅助评估药代动力学特性、药物毒副作用和药物间相互作用方面表现出显著潜力,为提高临床前研究效率并降低研究成本提供了有力的支持。研究人员开发了一个以 LLMs 为核心的智能数据挖掘系统,该系统能够高效提取和处理大规模公共数据库中的关键实验数据,从而为药代动力学特征预测构建了更为全面和准确的基准数据集。利用从大规模非结构化数据中提取的背景信息,LLMs 展现出预测化合物药物毒性的能力;进一步研究表明,将 LLMs 与分子对接技术相结合,能够促进对毒性药物与其靶标相互作用的分子机制及潜在副作用的深入理解。尽管仅在有限的癌症样本数据集上进行预训练,CancerGPT 仍能够在稀有组织类型中有效预测药物间的协同作用,这一创新性突破为特定癌症类型的精准药物开发提供了重要支持。LEDAP 模型成功整合了基于大型语言模型的生物医学实体表征方法与传统机器学习技术,为药物间相互作用解析和药物- 疾病关联探究等关键过程提供了创新性的分析框架和优化策略。
LLMs 在药物临床试验领域展现出广泛应用前景,主要表现在临床试验数据的提取、管理与预测等方面,这不仅能有效辅助临床决策制定,还能显著提升研究效率。以 SEETrial 为例,该系统基于 LLM 的先进结构而构建,专门用于自动化采集肿瘤学临床试验数据,并能准确分析各类药物疗法的安全性与有效性指标,为肿瘤学临床决策提供了可靠的支持依据。此外,研究人员通过应用大型语言模型对临床试验结果数据集进行分析,成功实现了对药物不良事件(ADE)的准确预测和有效管理,这一进展不仅有助于开发更安全的药物制剂,还能显著改善患者的临床预后。研究表明,基于包含丰富患者病例记录及临床试验信息的综合数据集,由 GPT-4 驱动的检索增强型大型语言模型能够为医疗专业人员提供精准的肿瘤学临床试验推荐方案,从而优化患者的治疗路径选择。
3. LLMs在药物开发中的主要挑战
LLMs 在药物开发领域的应用面临着数据质量与可获取性的显著限制。LLMs 的准确性与性能在很大程度上依赖于用于训练的数据的质量和数量,然而药物开发领域中,与特定任务高度相关的高质量数据通常十分有限,难以满足模型有效训练的需求。此外,药物开发过程中的诸多关键数据(如临床试验结果和患者健康信息)存在严格的获取壁垒,这进一步限制了 LLMs 在该领域的全面应用与深度整合。另一方面,LLMs 在药物开发应用过程中面临着可靠性与可解释性不足的严峻挑战。依赖单一来源的训练数据不可避免地会导致统计偏差,进而可能生成不准确的虚假信息,产生" 幻觉" 现象,这不仅影响科学决策的可靠性,还可能显著增加药物开发过程中的安全风险。与此同时,LLMs 在药物研发应用场景中表现出显著的可解释性缺陷。LLMs 作为典型的" 黑箱" 模型,其在新药发现等关键环节中的决策过程缺乏透明度,难以被研究人员全面理解和严格验证,这严重限制了其在药物开发领域的科学可信度和实际应用价值。LLMs 在药物开发中的应用也引发了重大伦理和监管问题,亟需审慎应对。患者数据隐私是首要关注的问题之一,因为 LLMs 通常依赖于包含敏感健康信息的大规模数据集。此外,人工智能在药物开发中的监管体系仍处于不断演变且较为碎片化的状态,而 AI 算法的验证尤为具有挑战性,原因在于其需在保持透明度的同时具备在不同人群中广泛适用的能力。这些伦理和监管障碍要求制定全面的框架,以确保 LLMs 负责任的应用,同时维护患者安全和监管合规性。
4. LLMs在药物开发中的未来方向
随着 LLMs 在药物开发领域的应用不断深入,未来的研究应聚焦于提升 LLMs 跨模态学习能力,协同集成生物化学专业工具,优化模型微调方法,并加强预测结果的可靠性验证,以推动 LLMs 在药物开发中的全面应用 (图 2)。

未来研究应着重提升 LLMs 在药物开发领域中的跨模态学习能力。通过整合基因与蛋白质序列、化学语言、自然语言和分子图像等多模态数据,并结合患者临床资料、药物临床试验数据和生物医学文献等多源信息,能够增强模型对真实世界的理解能力,有效减少幻觉现象的产生并提高预测准确性。此外,将通用大语言模型(如 GPT-4 等)与生物化学专业工具(如 PLLM 和 RXN 等)进行系统性集成,可充分发挥通用 LLM 优异的人机交互能力,使其更精准地适配生物医学领域的特定任务需求,从而拓展其在药物研发过程中的应用场景。另外,未来的研究也应关注预训练大语言模型的微调方法的优化提升。整个模型层面的全局微调对于存储和计算资源的要求极高,而新兴的参数高效微调(PEFT)方法只调整一小部分参数,极大地减少了计算成本,同时可以快速适配多个的特定任务,无需为每个任务单独训练一个完整模型。值得强调的是,大语言模型所生成的预测结果在可靠性方面仍需通过严谨的实验验证。尽管大语言模型能够通过虚拟筛选技术生成潜在的药物- 靶点配对清单,但研究人员仍需设计并实施一系列实验以验证这些靶点和候选药物的实际适用性及治疗效果。
5. 结论
总体而言,本文全面梳理了 LLMs 在药物研发领域的最新进展,深入解析其在靶点发现与药物筛选、药物分子结构设计和优化、药物再利用、临床前研究以及临床试验等药物开发关键环节中的实际应用,系统探讨了 LLMs 在该领域面临的核心挑战,并对其未来研究趋势进行了科学展望。
6. 内容来源
Lin A, Fang X, Jiang A, et al. Large language models in drug development: Current progress and future directions. Current Molecular Pharmacology. 2025;18(1):1-5. doi:10.1016/j.cmp.2025.06.003

被折叠的 条评论
为什么被折叠?



