AI与药学 | 药物发现新利器:AI大模型架起分子结构与适应症的桥梁

解读:大语言模型在药物分子与适应症间翻译的新机遇

文献标题: Emerging opportunities of using large language models for translation between drug molecules and indications

作者: David Oniani, Jordan Hilsman, Chengxi Zang, Junmei Wang, Lianjin Cai, Jan Zawala & Yanshan Wang

期刊: Scientific Reports

发表年份: 2024

文章链接: https://www.nature.com/articles/s41598-024-61458-x

核心内容概述:

这篇论文开创性地提出了一项新任务:利用大语言模型 (LLM) 实现药物分子结构 (以SMILES字符串表示) 与其适应症 (描述药物治疗的疾病或症状) 之间的双向翻译。作者探索了LLM在药物发现领域的应用潜力,特别是针对药物分子与适应症的互译,并进行了初步实验验证。这项研究为AI辅助药物研发开辟了新的方向,有望加速新药发现进程,并最终为患者提供更有效的治疗方案。

研究背景与意义:

  • 药物发现的挑战: 药物发现是一个昂贵且耗时的过程。

  • 适应症的重要性: 获批药物的适应症明确了其治疗用途,对药物研发至关重要。

  • LLM的兴起: LLM在自然语言处理任务中展现出强大能力,并已在多个科学领域得到应用。

  • 分子表示: SMILES字符串提供了一种将药物分子结构表示为文本的方法,为LLM处理药物信息提供了可能。

  • 研究空白: LLM在药物分子与适应症互译方面的应用尚未得到充分研究。

主要研究内容与方法:

  1. 提出新任务: 定义了两个任务:

    • 药物到适应症 (Drug-to-Indication): 输入药物的SMILES字符串,生成其对应的适应症描述。

    • 适应症到药物 (Indication-to-Drug): 输入适应症描述,生成治疗该适应症的药物的SMILES字符串。

  2. 实验验证:

    • 模型: 采用基于T5架构的MolT5模型 (包括small, base, large三个版本),以及针对SMILES和分子描述互译进行微调后的模型 (MolT5-smiles-to-caption, MolT5-caption-to-smiles)。

    • 数据集: 使用了DrugBank和ChEMBL两个公开药物数据库,这两个数据库提供了药物的SMILES字符串和对应的适应症信息。

    • 评估指标:

      • Drug-to-Indication: BLEU, ROUGE, METEOR, Text2Mol相似度。

      • Indication-to-Drug: 精确匹配率, Levenshtein距离, SMILES BLEU, Text2Mol相似度, 分子指纹相似度 (MACCS, RDK, Morgan FTS), 生成的SMILES字符串的有效性比例, Fréchet ChemNet Distance (FCD)。

    • 实验设置:

      • 基线评估: 在整个数据集和20%的子集上评估原始MolT5模型。

      • 微调评估: 在80%的数据集上微调模型,并在剩余20%的子集上进行评估。

      • 自定义分词器: 使用针对SMILES字符串语法设计的自定义分词器,从头预训练MolT5-Small模型,并进行评估。

主要研究结果:

  1. MolT5模型评估:

    • 模型大小的影响: 较大的MolT5模型在所有任务和配置中表现更好。

    • 微调的影响: 在药物分子与适应症互译任务上,微调降低了模型性能。

    • 数据集的影响: 模型在DrugBank数据上的表现优于ChEMBL数据,这可能是由于DrugBank对药物适应症的描述更详细。

  2. 自定义分词器评估:

    • Drug-to-Indication: 使用自定义分词器预训练的MolT5-Small模型在DrugBank数据上表现更好,微调没有降低性能,某些指标有所提高。

    • Indication-to-Drug: 自定义分词器在两个数据集上的表现不一致,微调对性能的影响也不一致。

主要结论与讨论:

  • 可行性验证: 实验结果初步证明了使用LLM进行药物分子与适应症互译的可行性。

  • 主要挑战:

    • SMILES字符串和适应症之间的信号较弱: 相似的SMILES字符串可能对应完全不同的适应症,反之亦然。

    • 数据稀缺: 可用的药物-适应症数据对数量有限。

  • 未来方向:

    • 引入中间表示: 例如,先将SMILES字符串映射到分子描述,再映射到适应症。

    • 数据增强: 寻找方法丰富药物-适应症数据。

    • 更大模型和更多数据: 更大的模型和更多数据可能带来显著的性能提升。

    • 人工评估: 引入人工评估或使用LLM评估生成的适应症的质量。

    • 探索其他模型架构: 例如,具有线性时间复杂度的状态空间模型 (SSM) 可能更具优势。

文章亮点与创新:

  • 首次提出利用LLM进行药物分子与适应症互译的任务,并进行了初步探索。

  • 系统地评估了不同大小的MolT5模型在两个公开数据集上的表现,并分析了不同实验设置的影响。

  • 尝试使用自定义分词器改进模型性能,为后续研究提供了新的思路。

  • 深入讨论了当前面临的挑战和未来的研究方向,为该领域的研究提供了重要的参考。

这篇论文为利用LLM进行药物发现开辟了新的研究方向。虽然目前的性能还不理想,但作者的探索性工作为未来的研究奠定了基础。随着模型、数据和方法的不断改进,LLM有望在药物分子与适应症互译方面发挥重要作用,并最终加速新药研发进程。 这项研究具有重要的理论意义和应用前景,为AI+药物研发领域的发展注入了新的活力。

往期内容荐读:

数智药学的崛起:人工智能赋能药学新未来

数智药师:AI时代药学服务的引领者

智能决策助力药物安全:大模型在临床处方审核中的突破

数字人技术在药学服务中的应用

药师必备:掌握AI,引领药学服务新时代

LEADER - 大模型蒸馏的药物推荐模型

李新刚:《医院药学的创新引擎:ChatGPT的应用与思考》

ChatGPT 在临床药学中的有效性以及人工智能在药物治疗管理中的作用

评估大语言模型在药物基因组学问答任务中的表现:PGxQA

DDI-GPT:使用知识图谱增强的大模型对药物相互作用进行可解释的预测

生成式AI:药学科普的新引擎

诺奖得主David Baker最新Science论文:药学+AI领域迎来新机遇!

AI与药学:ChatGPT与临床培训——药学博士(Pharm-D)学生的看法、担忧和实践

人工智能大模型在用药处方审核的应用潜力:一项跨 12 个临床专科的前瞻性研究

欢迎关注公众号“赛文AI药学”!

赛文AI药学,致力于探索人工智能在药学场景中的创新与应用,聚焦药师的AI赋能与专业素养提升。我们提供前沿的AI技术动态、实用的药学场景案例分享以及个性化学习资源,助力药师在智能化时代实现价值跃升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哲AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值