本文是LLM系列文章,针对《Scientific Large Language Models: A Survey on Biological & Chemical Domains》的翻译。
科学大语言模型:生物和化学领域综述
摘要
大型语言模型(LLM)已经成为增强自然语言理解的变革力量,代表着向通用人工智能迈进了一大步。LLM的应用超越了传统语言学的界限,涵盖了在各种科学学科中发展起来的专门语言系统。这种日益增长的兴趣导致了科学LLM的出现,这是一种专门为促进科学发现而设计的新亚类。作为人工智能科学界的一个新兴领域,科学LLM值得全面探索。然而,目前缺乏一项系统和最新的调查来介绍它们。在本文中,我们试图有条不紊地描述“科学语言”的概念,同时对科学LLM的最新进展进行全面回顾。鉴于科学学科的广阔领域,我们的分析采用了聚焦的视角,专注于生物和化学领域。这包括深入检查LLM的文本知识、小分子、大分子蛋白质、基因组序列及其组合,并从模型架构、能力、数据集和评估方面对其进行分析。最后,我们批判性地审视了当前的挑战,并随着LLM的发展指出了有希望的研究方向。通过全面概述该领域的技术发展,这项调查有望成为研究人员在科学LLM的复杂环境中导航的宝贵资源。