解读:大语言模型在药物分子与适应症间翻译的新机遇
文献标题: Emerging opportunities of using large language models for translation between drug molecules and indications
作者: David Oniani, Jordan Hilsman, Chengxi Zang, Junmei Wang, Lianjin Cai, Jan Zawala & Yanshan Wang
期刊: Scientific Reports
发表年份: 2024
文章链接: https://www.nature.com/articles/s41598-024-61458-x
核心内容概述:
这篇论文开创性地提出了一项新任务:利用大语言模型 (LLM) 实现药物分子结构 (以SMILES字符串表示) 与其适应症 (描述药物治疗的疾病或症状) 之间的双向翻译。作者探索了LLM在药物发现领域的应用潜力,特别是针对药物分子与适应症的互译,并进行了初步实验验证。这项研究为AI辅助药物研发开辟了新的方向,有望加速新药发现进程,并最终为患者提供更有效的治疗方案。
研究背景与意义:
-
药物发现的挑战: 药物发现是一个昂贵且耗时的过程。
-
适应症的重要性: 获批药物的适应症明确了其治疗用途,对药物研发至关重要。
-
LLM的兴起: LLM在自然语言处理任务中展现出强大能力,并已在多个科学领域得到应用。
-
分子表示: SMILES字符串提供了一种将药物分子结构表示为文本的方法,为LLM处理药物信息提供了可能。
-
研究空白: LLM在药物分子与适应症互译方面的应用尚未得到充分研究。
主要研究内容与方法:
-
提出新任务: 定义了两个任务:
-
药物到适应症 (Drug-to-Indication): 输入药物的SMILES字符串,生成其对应的适应症描述。
-
适应症到药物 (Indication-to-Drug): 输入适应症描述,生成治疗该适应症的药物的SMILES字符串。
-
-
实验验证:
-
模型: 采用基于T5架构的MolT5模型 (包括small, base, large三个版本),以及针对SMILES和分子描述互译进行微调后的模型 (MolT5-smiles-to-caption, MolT5-caption-to-smiles)。
-
数据集: 使用了DrugBank和ChEMBL两个公开药物数据库,这两个数据库提供了药物的SMILES字符串和对应的适应症信息。
-
评估指标:
-
Drug-to-Indication: BLEU, ROUGE, METEOR, Text2Mol相似度。
-
Indication-to-Drug: 精确匹配率, Levenshtein距离, SMILES BLEU, Text2Mol相似度, 分子指纹相似度 (MACCS, RDK, Morgan FTS), 生成的SMILES字符串的有效性比例, Fréchet ChemNet Distance (FCD)。
-
-
实验设置:
-
基线评估: 在整个数据集和20%的子集上评估原始MolT5模型。
-
微调评估: 在80%的数据集上微调模型,并在剩余20%的子集上进行评估。
-
自定义分词器: 使用针对SMILES字符串语法设计的自定义分词器,从头预训练MolT5-Small模型,并进行评估。
-
-
主要研究结果:
-
MolT5模型评估:
-
模型大小的影响: 较大的MolT5模型在所有任务和配置中表现更好。
-
微调的影响: 在药物分子与适应症互译任务上,微调降低了模型性能。
-
数据集的影响: 模型在DrugBank数据上的表现优于ChEMBL数据,这可能是由于DrugBank对药物适应症的描述更详细。
-
-
自定义分词器评估:
-
Drug-to-Indication: 使用自定义分词器预训练的MolT5-Small模型在DrugBank数据上表现更好,微调没有降低性能,某些指标有所提高。
-
Indication-to-Drug: 自定义分词器在两个数据集上的表现不一致,微调对性能的影响也不一致。
-
主要结论与讨论:
-
可行性验证: 实验结果初步证明了使用LLM进行药物分子与适应症互译的可行性。
-
主要挑战:
-
SMILES字符串和适应症之间的信号较弱: 相似的SMILES字符串可能对应完全不同的适应症,反之亦然。
-
数据稀缺: 可用的药物-适应症数据对数量有限。
-
-
未来方向:
-
引入中间表示: 例如,先将SMILES字符串映射到分子描述,再映射到适应症。
-
数据增强: 寻找方法丰富药物-适应症数据。
-
更大模型和更多数据: 更大的模型和更多数据可能带来显著的性能提升。
-
人工评估: 引入人工评估或使用LLM评估生成的适应症的质量。
-
探索其他模型架构: 例如,具有线性时间复杂度的状态空间模型 (SSM) 可能更具优势。
-
文章亮点与创新:
-
首次提出利用LLM进行药物分子与适应症互译的任务,并进行了初步探索。
-
系统地评估了不同大小的MolT5模型在两个公开数据集上的表现,并分析了不同实验设置的影响。
-
尝试使用自定义分词器改进模型性能,为后续研究提供了新的思路。
-
深入讨论了当前面临的挑战和未来的研究方向,为该领域的研究提供了重要的参考。
这篇论文为利用LLM进行药物发现开辟了新的研究方向。虽然目前的性能还不理想,但作者的探索性工作为未来的研究奠定了基础。随着模型、数据和方法的不断改进,LLM有望在药物分子与适应症互译方面发挥重要作用,并最终加速新药研发进程。 这项研究具有重要的理论意义和应用前景,为AI+药物研发领域的发展注入了新的活力。
往期内容荐读:
ChatGPT 在临床药学中的有效性以及人工智能在药物治疗管理中的作用
DDI-GPT:使用知识图谱增强的大模型对药物相互作用进行可解释的预测
诺奖得主David Baker最新Science论文:药学+AI领域迎来新机遇!
AI与药学:ChatGPT与临床培训——药学博士(Pharm-D)学生的看法、担忧和实践
人工智能大模型在用药处方审核的应用潜力:一项跨 12 个临床专科的前瞻性研究
欢迎关注公众号“赛文AI药学”!
赛文AI药学,致力于探索人工智能在药学场景中的创新与应用,聚焦药师的AI赋能与专业素养提升。我们提供前沿的AI技术动态、实用的药学场景案例分享以及个性化学习资源,助力药师在智能化时代实现价值跃升。