2024年5月10日发表在Nature上
摘要
药物分子是一种改变生物体精神或身体状态的物质。每种获批药物都有适应症,即该药物用于治疗特定疾病的治疗用途。虽然大型语言模型 (LLM),一种生成式人工智能 (AI) 技术,最近已证明在分子和其文本描述之间进行翻译方面非常有效,但在促进药物分子和适应症(描述使用该药物治疗的疾病、病症或症状)或反之亦然之间的翻译应用方面,研究仍然存在差距。解决这一挑战可以极大地促进药物发现过程。根据给定的适应症生成药物的能力将允许发现针对特定疾病或靶标的药物,并最终为患者提供更好的治疗。在本文中,我们首先提出一项新任务,即药物分子和相应适应症之间的翻译,然后在这项新任务上测试现有的 LLM。具体来说,我们考虑了 T5 LLM 的九种变体,并在从 ChEMBL 和 DrugBank 获得的两个公共数据集上对它们进行了评估。我们的实验展示了使用 LLM 完成这项任务的早期结果,并提供了对最新技术的展望。我们还强调了当前的局限性,并讨论了未来有可能提高这项任务性能的工作。根据适应症创建分子,反之亦然,将允许更有效地针对疾病并显著降低药物发现的成本,并有可能在生成 AI 时代彻底改变药物发现领域。
“翻译”解释:
虽然已经有研究证明在药物分子和其文字描述之间进行“翻译”非常有效,但是在“翻译”药物分子与其适应症之间的关系,或者反过来,从适应症来找出对应的药物分子,在这方面的研究仍然比较不足。这里的“翻译”是指利用某种模型或者算法将一种表现形式转换为另一种表现形式,比如从药物分子的化学结构得出其功能的文字描述,或者从具体的疾病、症状推出适合治疗的药物分子。
一、介绍
药物研发是一个成本高昂的过程1,需要识别出有潜力成为治疗药物的化学实体2。由于药物研发对健康具有明显的益处和意义,已成为一个活跃的研究领域,研究人员正试图实现药物研发的自动化和简化3、4。获批的药物都有适应症,即使用该药物治疗某种特定的疾病、病症或症状5 。适应症会具体说明该药物是用于治疗、预防、缓解、治愈、缓解还是诊断该特定疾病。根据适应症创建分子,或反之亦然,将能够更有效地针对疾病,并显著降低药物研发的成本,有可能彻底改变该领域。
大型语言模型 (LLM) 已成为生成式人工智能 (AI) 研究的主要方向之一,近年来开发出了GPT-3 6、GPT-4 7、LLaMA 8和 Mixtral 9等高性能模型,而ChatGPT 等服务则覆盖超过1亿用户10、11。LLM利用深度学习方法执行各种自然语言处理 (NLP) 任务,例如文本生成12、13和神经机器翻译14、15。LLM的能力部分归功于它们在大规模文本数据上的训练,这使得模型熟悉各种各样的主题。LLM 还在不同科学领域的各种任务中表现出色16、17、18、19 。由于LLM 处理文本数据,因此第一步通常是找到一种用文本或语言表达问题的方法。
图像或图表是呈现分子的典型方式,但也存在获取分子文本表示的方法。其中一种方法是简化分子输入行输入系统 (SMILES) 20,它通常被视为描述分子的语言。由于 SMILES 字符串以文本形式表示药物,我们可以评估 LLM 在药物分子及其适应症之间翻译的可行性。在本文中,我们考虑两个任务:药物到适应症和适应症到药物,其中我们分别试图从药物的 SMILES 字符串中生成适应症,以及从可能的适应症中生成 SMILES 字符串。药物和相应适应症之间的翻译将允许找到治疗目前无治疗方法的疾病的方法。
研究人员尝试通过使用人工智能来从头发现药物,包括图神经网络21、22以及最近的生成式人工智能23。目前有许多使用人工智能进行分子设计和药物发现的研究,例如基于 GPT 的模型,使用支架 SMILES 字符串并伴随输出分子的所需特性24。其他人已使用 T5 架构执行各种任务,例如反应预测25和分子标题与 SMILES 字符串之间的转换26。该领域的其他工作主要集中在使用生成对抗网络从基因表达特征生成新分子27,对已知化合物及其 SMILES 字符串训练循环神经网络,然后针对某些受体的特定激动剂进行微调28,或使用图神经网络从 SMILES 预测药物及其相应的适应症29。因此,使用人工智能进行药物发现和分子设计有着既定的前景。为了让数据更适合人工智能药物生成,我们还开发了自引用嵌入字符串 (SELFIES) 30,它可以表示每个有效分子。理由是,这种格式将允许生成式人工智能构建有效分子,同时在字符串中保留关键的结构信息。这些努力的集合为我们尝试从分子生成药物适应症奠定了基础。
随着药物化学的进步导致越来越多的药物用于复杂的过程,理解每种药物的独特特性和细微差别变得至关重要。在这方面,研究人员发布了许多资源,包括连接药物和化学成分的数据集(如 TCMBank)31、32 、用于生成高质量分子表征以促进计算机辅助药物设计(CADD)的模型33,以及药物 - 药物相互作用的模型34、35。这也导致了分子指纹的发展,例如 Morgan 指纹36和 MAP4 指纹37 ,它们使用独特的算法将分子的特征矢量化。指纹表征的计算速度很快,并且它们保留了分子的大部分特征38。分子指纹识别方法通常以 SMILES 字符串的形式接收输入,SMILES 字符串是一种线性符号,用于表示分子的结构形式,同时考虑到存在的不同原子、原子之间的键以及其他关键特征,如分支、环状结构和芳香性20。由于 SMILES 是一种传达不同分子结构的通用方法,因此使用 SMILES 字符串生成指纹是合适的。Mol2vec 39通过将分子转换为文本表示,将 Morgan 指纹提供给 Word2vec 40算法。基于 Transformer 的双向编码器表示 (BERT) 41的模型也已用于获取分子表示,包括 MolBERT 42和 ChemBERT