本文是LLM系列文章,针对《From Words to Molecules: A Survey of Large Language Models in Chemistry》的翻译。
摘要
近年来,大型语言模型(LLM)在自然语言处理(NLP)和各种跨学科领域取得了显著的成功。然而,将LLM应用于化学是一项复杂的任务,需要专业的领域知识。本文深入探讨了将LLM整合到化学领域中所采用的微妙方法,深入探讨了这一跨学科交叉点的复杂性和创新。具体来说,我们的分析首先考察分子信息是如何通过各种表示和标记方法输入LLM的。然后,我们根据化学LLM输入数据的领域和形式将其分为三组,并讨论整合LLM输入的方法。此外,本文还探讨了适应化学LLM的预训练目标。之后,我们探索LLM在化学中的各种应用,包括它们在化学任务中应用的新范式。最后,我们确定了有前景的研究方向,包括与化学知识的进一步整合、持续学习的进步以及模型可解释性的改进,为该领域的突破性发展铺平了道路。
1 引言
2 分子编码方法
3 分类
4 方法
5 应用
6 结论与未来工作
总之,这项调查对将LLM整合到化学中的现有策略进行了彻底的探索,涵盖了从输入表示到预训练目标,再到多样化和独特的应用的各个领域。然而,尽管它们进化迅速,但仍处于初级发展阶段,这表明它们有很大的增长和增强空间。以下未来方向对推进该领域至关重要:
与化学知识的进一步整合当前的化学大语言模型(LLM)努力解决对化学宇宙的有限理解,尤其是在逆合成中。经常使用的USPTO 50k数据集有50000

本文调查了大型语言模型(LLM)在化学领域的应用,从分子编码方法到预训练目标,再到多样化的应用。尽管LLM在NLP领域取得成功,但在化学中的应用仍处于初级阶段,需要与化学知识、量子化学更深入整合,实施持续学习,并提高可解释性。未来的研究方向包括知识整合、持续学习和模型可解释性的改进。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



