2025年1月20日,四川大学华西医院杨胜勇教授、温州医科大学眼视光医院张康教授、温州医科大学李校堃院士和北京生命科学研究所黄牛研究员等人在Nature Medicine期刊上发表了一篇题为“Artificial intelligence in drug development”的研究文章。该文章深入探讨了人工智能(AI)在药物开发全过程中的应用,包括疾病靶点识别、药物发现、临床试验管理以及上市后监测等环节。研究团队回顾了AI在药物筛选、分子设计、毒性预测、临床试验优化等方面的突破,并探讨了AI如何辅助个性化医疗,提高药物发现的效率与成功率。此外,文章还分析了当前AI药物研发面临的挑战,如数据质量、模型可解释性及合规性问题,并展望了未来的发展方向。
关键字
药物开发 | 靶点识别 | 生物标志物发现
引言
药物开发是一个复杂的过程,包括靶点识别、药物发现、临床前研究、临床试验、监管审批和上市后监测等多个阶段。然而,这个过程面临高成本、长周期和低成功率的挑战,新药开发通常需要约26亿美元,耗时12至15年,但成功率仍不足10%。造成这一困境的原因包括疾病的复杂性、庞大的化学空间以及严格的监管要求,使得寻找有效药物极具挑战性。
人工智能(AI)正在为药物开发提供新的解决方案。近年来,计算机视觉、自然语言处理(NLP)和大语言模型(LLMs)(如ChatGPT和Gemini)以及生成式AI展现出在处理大规模数据方面的能力,有望加速并优化药物研发流程。AI已经被用于解析生物系统、识别疾病生物标志物和潜在药物靶点、模拟药物-靶点相互作用、预测候选药物的安全性和疗效,以及管理临床试验(图1)。
尽管AI在药物开发中展现出巨大潜力,但仍然面临数据质量、模型可解释性和监管合规性等挑战。研究团队综述了2019年以来AI在小分子药物开发中的应用,包括靶点识别、药物发现、合成规划、临床阶段的生物标志物发现、药物再利用、药代动力学预测及毒性评估等,并探讨了当前面临的挑战及未来发展方向。
图1:AI在药物开发流程中的应用概述
AI驱动的药物发现
近年来,AI 已成为药物发现领域的变革性力量,重塑传统方法,并在多个阶段显著提升效率。本节探讨 AI 在药物发现关键环节的应用,包括靶点识别、虚拟筛选、de novo 分子设计、ADMET(吸收、分布、代谢、排泄和毒性)预测、合成规划及自动化药物发现。利用深度学习、强化学习和生成模型等先进算法,加速新型治疗分子的发现,提高预测准确性,并降低药物开发的时间和成本。AI 的深度融合使得化合物筛选更加高效,药物设计更具理性决策性,从而推动制药研究的创新发展。
靶点识别
小分子药物的靶点识别(如蛋白质或核酸)是药物发现中的关键环节。传统方法如亲和力拉取实验(affinity pull-down)和全基因组敲除筛选(whole-genome knockdown screening)虽然广泛应用,但通常耗时且劳动强度大,失败率较高。
AI 技术的进步正在彻底改变这一领域,使我们能够在复杂的生物网络中分析海量数据。AI 通过构建多组学数据网络,识别与疾病相关的分子模式和因果关系,从而促进候选药物靶点的发现。例如,最新研究利用自然语言处理(NLP)技术(如 word2vec 嵌入)将基因功能映射到高维空间,即使基因功能重叠度较低,也能提高靶点识别的灵敏度。然而,高效整合多组学数据并保证 AI 模型的可解释性仍是一项挑战。图深度学习(graph deep learning)技术结合图结构与深度学习,可聚焦于关键特征的图节点(如原子类型、电荷等),从而更有效地识别候选靶点。近期研究构建了一种可解释框架,结合图注意力机制(graph attention mechanism)对多组学网络图进行分析,实现了对癌症基因的有效预测。
此外,将多组学数据与科学和医学文献整合到知识图谱中,使 AI 能够揭示基因与疾病通路之间的关系。生物医学大语言模型(LLM)在深度结合生物网络或知识图谱功能后,能提供高效且精准的方法,将疾病、基因和生物过程相互关联。例如,PandaOmics 平台(https://pharma.ai/pandaomics/)成功利用多组学数据和生物网络分析,识别 TRAF2- 和 NCK- 互作激酶(TRAF2- and NCK-interacting kinase)为抗纤维化治疗的潜在靶点,并基于此开发了特异性 TRAF2- 和 NCK- 互作激酶抑制剂(INS018_055)。然而,由于医学文献可能存在发表偏倚,因此需要补充其他方法,以确保能识别出真正新颖且相关的靶点。
真实数据(RWD),如医疗记录、自我报告、电子健康记录(EHR)和保险索赔数据,为理解复杂疾病和促进靶点发现提供了重要的背景信息。然而,这些数据通常包含非结构化文本,缺乏标准化,可能存在偏倚,限制了其在靶点识别中的应用。尽管高质量的人工整理数据集对模型训练至关重要,但真实数据本身噪声较大,并且往往涉及多种疾病的交叉影响。尽管如此,最新研究表明,即使在存在噪声的情况下,真实数据仍可用于训练有效的模型,有助于在医疗记录和非专业疾病标注环境下发现基因及候选药物靶点。然而,增强模型在不同人群中的泛化能力仍是主要挑战,尤其是在罕见疾病或低标注率的情况下。随着真实数据和多组学数据的日益丰富,利用先进的数据挖掘算法与专家知识进行深度融合,将有望大幅提高靶点发现的成功率。
虚拟筛选
虚拟筛选是一种高效识别潜在先导化合物或候选药物的关键策略。随着化合物库的迅速扩展,超大规模化合物库的筛选需求日益增长,推动了 AI 技术在配体对接中的发展。AI 驱动的受体-配体对接模型可以预测配体的空间转换,并通过等变神经网络等算法直接生成复杂的原子坐标。此外,这些模型能够学习受体-配体距离的概率密度分布,以生成结合构象。值得注意的是,近期基于 AlphaFold2 和 RosettaFold 的受体-配体共折叠网络展现出直接从序列信息预测复杂结构的潜力。然而,由于对物理约束的学习不足,这些方法可能会生成不合理的配体构象,因此需要后处理(如能量最小化)或几何约束来优化对接构象的合理性。此外,尽管深度学习驱动的结合构象预测模型已取得进展,但在口袋导向对接任务中仍未超越基于物理的传统方法,同时在受体口袋柔性考虑方面仍存在不足。
在缺乏完整靶点结构的情况下,基于对接的虚拟筛选难以直接应用,而 AI 可用于基于序列的预测方法。然而,此类方法往往难以捕捉蛋白-配体相互作用的三维复杂性,从而影响对结合构象变化如何影响相互作用强度的准确预测。
对于特定靶点的药物开发较为成熟,但许多疾病仍缺乏明确的靶点。因此,基于表型的虚拟筛选对于罕见病等靶点未定义的疾病,以及衰老等广泛表型疾病至关重要。近期研究利用细胞核形态与机器学习结合,筛选能够诱导癌细胞衰老的化合物;类似策略在抗生素发现领域也展现出应用潜力。然而,此类模型通常依赖特定的表型数据,难以泛化。此外,仅基于配体化学结构进行活性预测的 AI 方法面临数据稀疏、不均衡及活性断崖等挑战。研究表明,结合细胞形态和转录组数据等相关生物信息,可提高模型性能,为更精准的活性预测提供新方向。
当前虚拟筛选模型通常专注于单一任务,如评分、构象优化或筛选,而开发能够同时处理多任务的通用模型仍然是一个重要研究方向。引入归纳偏置或数据增强可能有助于提升模型的泛化能力。此外,商用化合物库的指数级增长至数十亿级,使得全面筛选在计算上不可行,同时现有分子库仅覆盖可成药化学空间的一小部分,这既带来了机遇,也带来了如何高效筛选生物活性分子的挑战。
为应对这些挑战,主动学习(active learning)和 贝叶斯优化(Bayesian optimization)成为解决化学空间搜索问题的关键方法,并显著提高了虚拟筛选的效率。AI 与量子力学的结合为化学空间探索提供了新工具,而分子动力学模拟则能进一步解析蛋白-配体相互作用,优化结合亲和力和选择性,提高模型的预测准确性。此外,深度生成模型可针对特定靶点或化合物类型生成定制虚拟化合物库,大幅缩小搜索空间并提升筛选效率。例如,研究团队开发的条件递归神经网络(conditional recurrent neural network)生成了一种定制化合物库,并成功在细胞和动物模型中鉴定出高效且选择性的 RIPK1 抑制剂。
De novo 设计
De novo 药物设计涉及自主创建新的化学结构,以最佳方式满足所需的分子特征。传统方法,包括基于结构、基于配体和基于药效团的设计,依赖于人工操作和专家制定的显式规则。人工智能(AI),尤其是深度学习,使得能够自动识别满足特定要求的新结构,从而绕过了传统的专业知识。这项技术已成功应用于小分子抑制剂、PROTACs、肽类和功能性蛋白的开发,并通过湿实验验证,开启了更加高效和创新的药物发现时代。
在深度学习驱动的 de novo 设计中(图2),分子生成组件是核心,通常使用基于化学语言或图结构的模型。化学语言模型 将分子生成任务转化为序列生成,如 SMILES 字符串(“简化分子输入线性表示系统”),这是一种将化学结构表示为线性文本格式的记法。尽管这类方法需要大量预训练,并可能因语法错误生成无效的 SMILES,但这些错误可以通过过滤不合理样本来促进模型的自我纠正。例如,长短时记忆(LSTM)模型(用于分析序列数据的深度学习模型)会面临信息压缩瓶颈,阻碍其学习全局序列属性,因此需要采用 Transformer 等架构来更好地捕捉全局特性。最新研究将结构化状态-空间序列整合到化学语言模型中,以展现高度化学空间相似性,并与关键的天然产物设计特征保持一致,从而证明该模型在 de novo 设计中的实用性。
相比之下,基于图的模型 将分子表示为图结构,并通过自回归(autoregressive)或非自回归(non-autoregressive)策略生成结构。自回归方法 逐个原子地构建分子,这可能导致化学上不合理的中间结构,并引入偏差。非自回归方法 允许一次性生成完整的分子图,但需要额外步骤来确保生成图的有效性,因为这类模型对分子拓扑结构的有限感知可能导致错误的分子结构。
鉴于类药化学空间的巨大规模,de novo 生成通常会利用优化机制来引导设计朝向目标特征,这些优化机制包括基于已知活性分子的相似性和预测生物活性等指标的评分函数。引入强化学习进行迭代优化是一种有效的方法,但设计合适的评分函数仍然具有挑战性,因为直接量化合成可行性或药物相似性等目标较为困难,常常导致意想不到的结果。此外,强化学习的大量优化步骤暴露了样本效率方面的挑战,而主动学习(active learning)或课程学习(curriculum learning)策略可能有助于缓解这一问题。
除了引入评分函数外,约束条件(如疾病相关基因表达特征、药效团、蛋白序列或结构、结合亲和力以及蛋白-配体相互作用)的整合也可以引导模型生成符合要求的分子。例如,PocketFlow 模型基于蛋白口袋进行条件生成,并成功生成了针对 HAT1 和 YTHDC1 目标的实验验证活性化合物,展示了其在药物设计方面的能力。此外,模型还可以通过限制输出到特定的骨架(scaffold)或候选分子的片段来优化先导化合物,但这可能会限制化学多样性。
图2:AI驱动的药物发现中分子生成的流程
ADMET
ADMET(吸收、分布、代谢、排泄和毒性)在决定药物的有效性和安全性方面起着关键作用。虽然湿实验评估是获得市场批准的必要步骤,并且无法完全被模拟替代,但早期阶段的 ADMET 预测可以帮助减少因不良特性导致的失败。人工智能(AI)已成为预测 ADMET 性质的有力工具,通过使用分子指纹或描述符等预定义特征来提高预测能力。例如,拜耳(Bayer)的 in silico ADMET 平台利用随机森林(random forest)和支持向量机(support vector machines)等机器学习技术,并采用如环状扩展连接指纹(circular extended connectivity fingerprints) 之类的描述符,以确保准确性和相关性。过去几十年里,研究人员已经开发了多种 ADMET 预测的描述符。然而,这些基于特征工程的方法仍然较为复杂,限制了模型的通用性和灵活性。
深度学习现已成为 ADMET 预测的核心,能够从简单输入数据中自动提取有意义的特征。各种神经网络架构在建模分子性质方面表现出色,包括 Transformer(专为有效处理序列数据设计)、卷积神经网络(CNN,用于图像和视频识别任务的深度学习模型),以及最近的图神经网络(GNN,一种用于处理图结构数据的深度学习模型,如分子结构)。其中,SMILES 字符串 提供了紧凑的分子表示,并能清晰地表达支链、环和手性等子结构,但缺乏拓扑信息。而 图神经网络(如 GeoGNN 模型能够整合几何信息,在 ADMET 预测中表现出更优越的性能。确实,近期研究表明,基于 SMILES 作为输入的 Transformer 模型在完整结构识别方面存在一定困难。对于毒性等性质的预测,这些模型生成的表示在训练过程中可能会出现性能饱和,导致训练后的性能提升有限。
尽管新兴深度学习算法推动了 ADMET 预测的发展,该领域仍面临诸多挑战。高成本和长时间投入导致 ADMET 预测中的标注数据稀缺,进而增加了过拟合的风险。无监督学习和自监督学习提供了潜在的解决方案,尽管基于 Transformer 的大规模模型在其他领域表现出了巨大潜力,但它们在 ADMET 预测中的应用仍有待进一步探索。近期研究表明,虽然 SMILES 语言未直接编码分子拓扑结构,但经过精心设计的自监督训练(如结合 线性注意力机制(linear attention mechanisms) 的上下文 Transformer)可以有效学习隐含的结构-性质关系,从而增强在 ADMET 预测中应用大规模自监督模型的信心。
此外,分子表征方式 对于 AI 的性能至关重要。高维表征通常比低维表征提供更丰富的信息。然而,最近的研究表明,集成多个层次的分子表征可以显著增强模型学习能力,进而提升 ADMET 预测的全面性、泛化能力和鲁棒性。这意味着 同时利用多种分子表征的多模态 ADMET 预测模型 具有广阔的应用前景,尽管目前仍未确定最优的数据组合方案。
可解释性仍然是一个主要挑战。理解 ADMET 预测模型的参数有助于揭示分子子结构与其性质之间的关系。注意力机制(attention mechanisms) 允许模型关注输入数据的重要部分,从而提高可解释性,例如识别关键原子或基团。此外,结合化学知识可以进一步增强模型的可解释性,但要扩展模型以实现全面的化学理解仍然充满挑战。
合成规划及合成与药物发现自动化
化学合成是小分子药物发现的瓶颈之一,这是一项高度专业化且极为繁重的任务。计算机辅助合成规划(CASP)和有机化合物的自动合成可以帮助化学家减少重复性繁重任务的负担,使他们能够投入更具创新性的研究工作。随着人工智能(AI)的快速发展,制药行业和学术界对在这一过程中实现智能化和自动化的兴趣日益浓厚。
CASP 已被用作辅助化学家确定反应路径的工具,主要通过逆合成分析(retrosynthesis analysis)进行,该技术将目标分子递归地转化为更简单的前体(图 3a)。早期的 CASP 程序是基于规则的方法(例如,在合成分析、化学合成的模拟与评估以及基于逆合成的合成可行性评估中应用逻辑和启发式算法)。自那时以来,各种机器学习技术,尤其是深度学习模型被引入,使得人工小分子和天然产物的合成规划得到了逐步改进。最近,Transformer 模型也被应用于逆合成分析、区域选择性预测(即在具有多个可能反应位点的分子上,化学反应更倾向于发生在特定位置)和立体选择性预测(即当可能产生多个立体异构体时,反应更倾向于生成特定的立体异构体),以及反应指纹提取。针对纯数据驱动 AI 方法在复杂合成规划中的局限性,人们开发了结合化学规则的专家-人工智能(Expert-AI)混合系统。然而,大多数当前的深度学习方法仍然是不可解释的,表现为“黑箱”模型,难以提供深入的见解。为了应对这一挑战,研究团队最近提出了一种新的逆合成预测模型 RetroExplainer,其采用可解释的深度学习框架,将逆合成任务重新定义为分子组装过程。与最先进的逆合成方法相比,RetroExplainer 表现出更优异的性能。值得注意的是,其分子组装方法增强了可解释性,使得决策过程更加透明,并可进行定量归因。
图3:AI驱动的合成规划和自动化药物发现
有机化合物的自动合成 代表了化学领域(包括药物化学)的前沿方向(图3b)。一个理想的自动合成平台将无缝集成和优化化学开发过程的各个组成部分,包括 CASP、自动化实验设置和优化,以及机器人执行的化学合成、分离和纯化。近年来,基于深度学习的流动化学(flow chemistry)和 固相合成(solid-phase synthesis)技术在制药合成中受到广泛关注。特别是,自动合成与设计、测试和分析技术相结合,形成了药物发现的自动化核心流程,即“设计-合成-测试-分析(DMTA)”循环。借助深度学习,DMTA 循环的效率得到了大幅提升,加速了药物发现中 Hit 物质 和 先导化合物 的筛选。例如,研究团队利用一个AI 驱动的 DMTA 平台,结合深度学习进行分子设计,并利用微流控(microfluidics)进行芯片化学合成,从头生成了 肝 X 受体(LXR)激动剂。此外,大型语言模型(LLMs)被认为能够“理解”人类自然语言,使得自动化平台可以基于研究人员的简洁输入提供定制化的解决方案。然而,尽管自动合成和自动化 DMTA 循环具有广阔的前景,目前仍处于初级发展阶段。仍然存在许多技术挑战,例如减少固体形成以避免堵塞、预测在非水溶剂和不同温度下的溶解度、估计最佳纯化方法以及优化多步反应。
在新药化合物的规划和合成之后,AI 技术还可以促进新药作用机制(MOA)的体内验证。在高内涵筛选(high-content screening)中,通过实时监测组学数据的变化,AI 技术可以泛化这些特征,并构建一个能够解析新化合物的分子和细胞作用机制(MOA) 以及其药代动力学(pharmacokinetics)、药效学(pharmacodynamics)、毒理学(toxicology)和生物利用度(bioavailability) 特性的模型(图 4)。
图4:AI驱动的作用机制预测:利用高内涵筛选和多组学数据
AI在临床试验和实践中的应用
人工智能(AI)在临床试验的各个方面发挥着越来越重要的作用,主要通过分析患者数据,包括基因信息、临床病史和生活方式因素等。将 AI 方法应用于这些数据有助于识别影响药物反应的生物标志物和患者特征,从而优化试验设计,使其更加高效和富有信息价值。通过优化患者选择、治疗方案和结果测量等参数,AI 具有提高临床试验成功率并加速候选药物向临床实践转化的潜力。此外,真实数据(real-world data, RWD) 也是丰富的信息来源,AI 应用可以利用这些数据预测不良事件、药物-药物相互作用以及其他临床结局。
生物标志物发现
生物标志物作为生物学指标,可用于客观衡量和评估正常与病理过程及对治疗的反应,在医学、生物技术和生物制药领域具有广泛的应用价值。然而,传统的基于假设驱动的生物标志物发现方法通常效率低下,且难以全面解析疾病的复杂性。这些方法不仅耗时,还需要大量资源进行假设验证,而有限的样本规模进一步限制了在不同人群中的广泛验证。
近年来,AI 技术的突破极大地促进了生物标志物的发现。AI 模型在诊断性生物标志物识别方面表现出色,为临床病理学提供了预测性见解和诊断参考。一个典型案例是 nuclei.io 数字病理框架,该框架结合主动学习(active learning)和实时人机交互,使病理学家能够基于细胞核统计数据获得精准反馈,同时高效构建数据集和 AI 模型,显著提高了外科病理任务的诊断精度和效率。
此外,AI 在预后生物标志物的识别方面同样表现突出,这些标志物对于预测疾病进展和患者生存情况至关重要,从而促进了靶向治疗和个性化医疗的发展。例如,深度学习模型可以解析 CD8+ T 细胞形态 作为有效的脓毒症预后指标,区分表征细胞衰老的细胞核特征,以及识别蛋白质组学生物标志物以精准预测肝病结局。在癌症预后预测方面,AI 可以生成准确的生存风险评分,预测复发和转移情况。值得注意的是,基于图神经网络(GNN)的生存分析模型优于现有模型,能够超越传统的临床分级和分期标准,更有效地区分高低风险人群,这凸显了 AI 在预后增强和病理学家协作中的潜力。
在药物开发中,预测性生物标志物的发现至关重要,有助于优化患者选择,使试验人群更具针对性,提高研究成功率。这些发现通常需要严格的前瞻性临床验证。虽然 AI 预测生物标志物的方法尚未大规模应用于临床,但概念验证研究已表明 AI 可以预测已知生物标志物(如微卫星不稳定性),进而预测患者对治疗的反应。鉴于生物系统的复杂性,AI 需要整合多种生物数据类型(如蛋白-蛋白相互作用) 以进行更全面的预测。
面对标注数据稀缺的问题,研究人员正在采用多种策略来优化 AI 在生物标志物发现中的应用。例如,集成多个数据源的数据集 展现出了巨大潜力。此外,可穿戴传感器 产生的数字生物标志物(digital biomarkers) 扩展了研究范围,提供了丰富的纵向数据。多模态生物标志物 结合分子诊断、放射组学(radiomics)和组织病理影像学,为精准医疗提供了新途径。同时,群体学习(swarm learning)和自动化数据处理管道正在推动大规模、安全的数据收集。
尽管 AI 取得了显著进展,但模型的异质性 仍然阻碍其在临床试验中的推广。部分研究利用深度学习解析细胞和组织层面的异质性及肿瘤生态系统的多样性,为疾病亚型分类和患者分层 提供了新途径。此外,AI 在生物标志物发现中的可解释性仍然是临床应用的关键挑战。整合医学先验知识或在神经网络中嵌入生物学关系可增强模型的可信度。为应对 AI 驱动生物标志物发现中的偏差问题,研究人员提出了跨地理区域患者队列的模型验证以及开发公平和透明的算法等策略。未来,通过严格的验证和负责任的数据管理,AI 有望加速生物标志物的识别及其在药物开发和疾病治疗中的应用。
药物动力学属性预测
AI 和大数据工具的应用能够有效应对药物动力学问题,尤其擅长时间-事件分析(time-to-event analysis),能够处理高维数据并捕捉危险函数中的非线性关系。AI 可用于个性化治疗,优化剂量-反应关系,提高药物安全性,并细化治疗窗口,这对于精准医学 中的药物动力学问题至关重要。例如,基于机器学习的分析对 442 种小分子激酶和 2,145 种不良事件进行了关联分析,发现了新的激酶-不良事件配对,有助于降低风险并开发更安全的小分子激酶抑制剂。此外,多组学变分自编码器(MOVE) 框架整合多组学数据,揭示了药物相互作用,如 二甲双胍与肠道微生物群的关系,并比较了不同组学模式下的药物反应。PharmBERT(特定领域的语言模型) 通过从处方标签中提取关键药代动力学信息,帮助识别不良反应和药物相互作用。AI 还可以分析患者的基因信息、生理特征及既往治疗反应,提供个性化剂量调整建议,从而优化治疗效果。
药物重定位
除了新药发现,AI 还可以通过挖掘大规模生物医学数据集,对已批准药物进行重新定位,从而加速不同疾病的优化治疗。AI 可以发现已批准药物的新适应症,减少药物发现的时间和成本。例如,AI 加速了2019 冠状病毒病(COVID-19) 的药物重定位,凸显了 AI 在发现现有药物新用途方面的潜力。
此外,AI 还可以利用真实数据(RWD,如电子健康记录和保险索赔数据),模拟临床试验 以促进药物重定位。例如,研究团队开发了一种基于深度学习的循环神经网络(RNN),结合因果推断 和深度学习 分析医疗索赔数据库,成功识别了潜在药物候选物。该方法应用于数百万名冠状动脉疾病患者的队列,并精准识别了能改善临床结局的药物及其组合。
另一种基于深度学习 的药物重定位方法是将深度神经网络(DNN) 应用于组学数据,根据体外实验中的转录扰动模式 对药物进行治疗类别分类。研究人员利用 LINCS 项目(https://lincsproject.org/)的扰动数据 和 MeSH(医学主题词) 衍生的 12 个治疗类别,实现了高度准确的药物分类,尤其在路径水平数据的整合 下展现了较强的泛化能力,为药物重定位提供了可能性。
此外,AI 驱动的高内涵筛选(HCS) 也可用于药物重定位(图 4)。例如,深度学习模型 MitoReID 通过线粒体表型分析 解析 MOA,为药物发现和重定位 提供了一种高效、低成本的解决方案。然而,AI 在药物重定位中的应用仍然面临数据质量、模型可解释性、泛化能力、验证成本、监管障碍及计算资源需求 等挑战,这些因素限制了其大规模推广和实际应用。
提升临床试验效率与结果预测
临床试验通常成本高昂、周期漫长且效率低下,大多数试验面临注册延迟或难以招募到足够的志愿者。人工智能(AI)有潜力优化试验设计、简化招募流程并预测患者反应,从而提高试验效率和成功率,同时降低成本并缩短研究周期。目前,研究团队已经开发了一条先进的药物开发管线,该管线整合多模态数据集,利用 AI 生成分子先导物,按照疗效和安全性进行排名,并通过深度强化学习(deep reinforcement learning) 生成可申请专利的类似物以进行测试。此外,该系统还能预测 I/II 期临床试验的结果,通过估算副作用和信号通路激活情况 来提高预测精度,并识别药物组合的潜在风险。在真实研究(real-world studies)中,AI 可利用电子健康记录(EHRs)、保险索赔数据和可穿戴设备数据 来评估药物的有效性和安全性(图 5)。例如,一项研究利用真实数据和 Trial Pathfinder 工具,从 61,094 名晚期肺癌患者的 EHR 数据中模拟了试验结果,结果表明放宽试验纳入标准可使符合条件的患者数量翻倍,并改善生存结局。这一方法已在多种癌症类型中验证,支持更具包容性和更安全的临床试验。
在寻找符合纳入标准的合适患者 这一挑战上,数字孪生(Digital Twins) 技术提供了一种可行的解决方案,Unlearn.ai 率先开展了这一探索。该技术通过创建患者的虚拟复制体,使其充当对照组,从而增加实验组患者数量,提高试验效率。Unlearn.ai 于 2020 年 4 月获得了 1,200 万美元的研究资助,此外,Novadiscovery 和 Jinkō 等公司也正在利用数字孪生技术进行肺癌等疾病的临床试验模拟。该方法基于基因表达和临床数据进行计算建模,并结合深度学习和生成对抗网络(GANs)。利用多样化的健康指标,数字孪生技术可以提供定量化见解,帮助动态调整健康管理方案并优化治疗策略。该方法旨在加深对生物机制的数学理解,革新临床实践,并实现高度个性化的医疗护理,例如生成特定于患者的模型,用于根据药物输入预测生存概率。此外,该模型还可模拟临床试验并优化试验参数,提高试验的成功概率。然而,该技术仍面临诸多挑战,包括高昂的计算成本、复杂的工作流集成、伦理问题以及有限的个性化能力。这些问题可能影响患者模拟的准确性、试验设计及监管机构的接受度,从而减缓技术创新的步伐。
除了临床试验阶段,AI 还可用于分析上市后(post-market)监测数据,以支持药物的安全性、有效性和质量管理。在监管审批过程中,开发并采用替代方法来尽早识别和解决安全问题 是推进监管科学(regulatory science) 和优化药物开发的重要举措。
图5:利用AI能力增强临床试验流程和真实医疗实践
挑战
尽管 AI 在药物研发领域取得了显著进展,但迄今为止,尚无 AI 设计的药物成功进入 II 期临床试验之后的阶段,这凸显了药物开发过程的复杂性。其中一个核心挑战是缺乏高质量的训练数据,主要受到高昂的数据获取成本、隐私法规和数据共享限制的影响,尤其是在罕见疾病或新型药物靶点 研究方面。这些限制降低了 AI 在靶点识别、生物标志物发现及其他功能预测 方面的有效性。此外,现有数据往往存在缺失、错误和偏差,进一步削弱了 AI 预测的可靠性。药物发现实验的重复性和一致性存在问题,同时,成本控制 可能导致数据不完整。此外,负面数据的缺乏(例如失败的实验和临床试验的负面结果)使得研究人员无法全面理解药物-靶点-疾病 之间的相互作用、疗效及其他临床特征。
在药物设计 过程中,一个关键挑战是在多个目标之间取得平衡。当前研究往往过度关注化学空间,而忽略了其他关键因素(如成药性和可合成性)。尽管多目标优化(multi-objective design) 方法正在逐步完善,但有效的评分函数(scoring functions)(如亲和力预测和生物活性评估)仍然较为复杂,且需要大量实验来优化。缺乏标准化的评估流程 进一步增加了模型验证的难度,尤其当研究目标相互冲突时(如既要提高对已知生物活性分子的相似性,又要保证结构的新颖性)。尽管 MOSES和 Guacamol等基准测试平台已经建立,但在最佳实践方面仍未达成共识。
在生成式模型(generative models) 中,合适的分子表征方式至关重要。传统方法如 SMILES 表示 和 分子图(graph-based representation) 仍被广泛使用,但目前研究人员正探索新的数据驱动方法,如分层分子图的自监督学习(hierarchical molecular graph self-supervised learning)。然而,在这些方法中,如何充分捕捉分子的复杂性并确保可合成性 仍然是一大难题。目前合成可行性的评估方法仍然不够精准,可能导致无法合成的分子被生成。将化学反应知识整合到分子生成过程中 被认为是一种有效的改进方向,但仍需进一步优化。此外,模型的可解释性、新分子的生成不确定性以及偏差(bias)也成为了学术界关注的焦点。有效地结合偏差控制和不确定性估计 是提升生成分子质量的关键。
AI 在“不可成药(undruggable)”靶点上仍然面临挑战,这些靶点往往缺乏适合的结合位点,包括无序蛋白(disordered proteins)、转录因子(如 MYC 和 IRF4)以及蛋白-蛋白相互作用(protein-protein interactions)。研究人员正在开发新型 AI 方法和高内涵筛选(high-content screening)技术(图 4),以探索这些靶点的构象空间 并识别潜在的配体结合位点,有望突破这一瓶颈。
此外,AI 在算法和计算能力 方面的技术挑战仍然限制了其在药物开发中的应用。许多 AI 算法最初是为其他领域设计的,可能不完全适用于药物发现。例如,基于 自然语言处理(NLP) 的新算法需要更好地捕捉三维空间相互作用。此外,AI 方法需要高昂的计算资源,这对较小型研究团队构成了障碍。与云计算服务商合作 并开发更高效的算法 可能有助于应对这些挑战。
最后,AI 药物开发面临人才短缺和投资风险。由于开发周期长、成功率低、回报不确定,投资者信心受到影响,可能限制 AI 在药物发现领域的进一步发展。
结论与展望
人工智能(AI)正在重塑药物开发流程,通过从复杂的多组学生物医学数据中提取关键信息,识别新的生物标志物,检测治疗靶点及异常现象,从而促进先导化合物和候选药物的发现。此外,AI 还能加速药物发现、药物重定位和毒性预测,从而降低时间成本、开发成本和安全风险。然而,要实现 AI 在药物研发中的全部潜力仍然任重道远,仍有许多挑战需要克服,并且仍存在巨大的发展空间。未来的研究工作应重点关注以下几个关键方向,以解决前述挑战。
首先,解决 AI 赋能药物开发中的数据稀缺问题应成为优先任务。可行的策略包括促进数据共享、建立数据标准 以及开发新型 AI 算法,例如“稀疏 AI”(sparse AI)方法,可以在极少数据的情况下提供准确预测。此外,多模态预训练模型 可整合文本和化学信息,在零样本(zero-shot)学习场景下展现出潜力。AI 还可以通过整合基因组学(genomics)、转录组学(transcriptomics)、疾病特异性分子通路、蛋白相互作用和临床记录 等数据,识别已有药物在罕见病或被忽视疾病中的潜在适应症。
目前的大多数 AI 方法主要聚焦于单一数据类型,难以捕捉不同生物系统之间的复杂相互关系。因此,建立有效的多模态融合(multimodal fusion)方法,能够从多种来源和格式的数据中提取有价值的信息,从而推动药物开发的发展。随着大数据技术和 GPU 计算(基于图形处理单元 GPU 而非传统 CPU)的兴起,AI 现在可以适用于文本、图像、视频等多种数据形式。例如,基于深度学习的药物分类模型 在药效预测、作用机制解析和毒性评估 方面已展现出良好前景,进一步凸显了多模态 AI 在未来药物开发中的潜力。
当前许多 AI 模型完全依赖数据驱动,但由于缺乏足够高质量的数据,其在药物开发中的有效性受到限制。事实上,所有生命系统都遵循物理法则(即“第一性原理”),药物也必须符合物理规律。因此,未来的一项重要研究方向是将物理法则(first-principle laws)融入现有的 AI 算法,以减少对大规模数据的依赖,并提高模型的准确性和泛化能力。
在药物监管合规性 方面,AI(特别是大型语言模型 LLMs) 可通过分析大量法规文件,确保符合最新的监管要求,从而提高药物审批效率,降低违规风险,并减少审批延迟。此外,开发既准确又可解释的 AI 模型,对于提高药物开发者、监管机构、临床医生和患者之间的信任度 至关重要。这些模型可以增强决策透明度,提高对 AI 预测的理解,并能在早期阶段优化项目融资策略,引导投资方向,从而加速药物开发进程。
在未来几十年,AI 在医学建模和模拟(medical modeling and simulation)中的角色将具有变革性。先进的 AI 模型将构建越来越精细的虚拟人体模拟,进一步增强对疾病机制、药物作用及个体生物学差异 的理解。通过模拟技术,AI 还能优化临床试验的设计和执行,测试不同情境下的最佳入组标准,从而加速患者招募 并提高试验的代表性。此外,AI 可通过健康数据和基因组分析,提供个性化医疗决策支持,实现精准风险预测、优化治疗方案和改进手术指导。在医学教育领域,AI 驱动的虚拟现实(VR) 可提供更真实的培训场景,提升医学服务的质量,并为未来的临床应用奠定基础。
总体而言,人工智能(AI)技术的持续进步正在显著提升药物开发的效率和成本效益。然而,必须认识到,AI 并非万能。AI 技术的优势在于分析海量复杂数据,并辅助快速决策,以增强人类的能力 并补充人类的职能,但 AI 并不是为了完全取代人类的创造力或决策权。AI 设计的药物和预测的性质仍然需要通过湿实验(wet-lab experiments)进行验证,同时,仍需人类专家的输入来确定 AI 研究的方向及其应用方式。
尽管如此,考虑到 AI 不断增强的能力、技术进步的速度以及大型模型(如近期的 AlphaFold3)的开源化,可以保持审慎的乐观态度,相信 AI 将在加速药物开发进程、改善人类健康方面发挥重要作用。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈