本文是LLM系列文章,针对《From Words to Molecules: A Survey of Large Language Models in Chemistry》的翻译。
摘要
近年来,大型语言模型(LLM)在自然语言处理(NLP)和各种跨学科领域取得了显著的成功。然而,将LLM应用于化学是一项复杂的任务,需要专业的领域知识。本文深入探讨了将LLM整合到化学领域中所采用的微妙方法,深入探讨了这一跨学科交叉点的复杂性和创新。具体来说,我们的分析首先考察分子信息是如何通过各种表示和标记方法输入LLM的。然后,我们根据化学LLM输入数据的领域和形式将其分为三组,并讨论整合LLM输入的方法。此外,本文还探讨了适应化学LLM的预训练目标。之后,我们探索LLM在化学中的各种应用,包括它们在化学任务中应用的新范式。最后,我们确定了有前景的研究方向,包括与化学知识的进一步整合、持续学习的进步以及模型可解释性的改进,为该领域的突破性发展铺平了道路。