-
摘要
-
1 引言
- 语言建模的研究可以分为四个主要发展阶段:统计语言模型(SLM)、神经语言模型(NLM)、预训练语言模型(PLM)、大语言模型(LLM)
- ·统计语言模型(SLM):基本思想是基于马尔可夫假设建立词预测模型,例如根据最近的上下文预测下一个词。
- ·神经语言模型(NLM):引入了词的分布式表示这一概念,并在聚合上下文特征(即分布式词向量)的条件下构建词预测函数。开创了将语言模型用于表示学习(超越词序列建模)的应用
- ·预训练语言模型(PLM):基于自注意力机制的高度并行化Transformer架构。确立了“预训练和微调”学习范式。
- ·大语言模型(LLM):在解决一系列复杂任务中展示了惊人的能力(称为涌现能力)
- LLM和PLM之间的三个主要区别:
- LLM表现出一些令人惊讶的涌现能力
- 与小型PLM不同,访问LLM的主要方法是通过提示接口(例如GPT-4API)
- LLM的发展不再明确区分研究和工程。
- 这一新技术浪潮可能会带来一个基于LLM的实际应用的繁荣生态系统。
基本原理尚未得到充分探索的挑战:- 为什么涌现能力会出现在LLM中
- 研究界很难训练出有能力的LLM
- 将LLM与人类价值观或偏好保持一致是具有挑战性的
- 从四个主要方面对LLM的最近进展进行文献综述:
- 预训练(如何预训练出一个有能力的LLM)
- 适配微调(如何从有效性和安全性两个角度有效地微调预训练的LLM)
- 使用(如何利用LLM解决各种下游任务)
- 能力评估(如何评估LLM的能力和现有的经验性发现)
- 语言建模的研究可以分为四个主要发展阶段:统计语言模型(SLM)、神经语言模型(NLM)、预训练语言模型(PLM)、大语言模型(LLM)
-
2 概述
- 2.1 大语言模型的背景
- LLM是指包含数千亿(或更多)参数的Transformer 语言模型
- 本部分将介绍LLM的基本背景,包括扩展法则、涌现能力和关键技术。
- 大语言模型的扩展法则:LLM大幅度扩展了模型规模、数据规模和总计算量(数量级)。
- KM扩展法则:(OpenAI 团队)这三个规律是通过拟合模型在不同数据大小(2200万到230亿个token)、模型大小(7.68亿到15亿个非嵌入参数)和训练计算量下的性能得出的。结果表明,模型性能与这三个因素存在着强依赖关系。
- Chinchilla扩展法则:(Google DeepMind团队) 随着给定计算预算的增加,KM扩展法则更偏向于将更大的预算分配给模型大小,而Chinchilla扩展法则则认为模型大小和数据大小应该以相同的比例增加
- 大语言模型的涌现能力:
- 在小型模型中不存在但在大型模型中产生的能力。当规模达到一定水平时,性能显著提高,超出随机水平。
- 简要介绍了LLM的三种典型涌现能力和具备这种能力的代表性模型:
- 上下文学习:ICL能力,假设已经为语言模型提供了一个自然语言指令和/或几个任务演示,它可以通过完成输入文本的单词序列的方式来为测试实例生成预期的输出,而无需额外的训练或梯度更新
- 指令遵循:通过指令微调,LLM能够在没有使用显式示例的情况下遵循新的任务指令,因此它具有更好的泛化能力。
- 逐步推理:对于小型语言模型而言,通常很难解决涉及多个推理步骤的复杂任务,例如数学问题。然而,通过使用思维链(Chain-of-Thought,.CoT)提示策略[32,LLM可以通过利用包含中间推理步骤的提示机制来解决这类任务,从而得出最终答案。
- 大语言模型的关键技术:
- ●扩展:Transformer语言模型存在明显的扩展效应:更大的模型/数据规模和更多的训练计算通常会导致模型能力的提升。然而, 需要注意的是,数据扩展应该经过谨慎的清理过程,因为预训练数据的质量在模型能力中起着关键作用。
- ●训练:分布式训练算法是学习LLM网络参数所必需的,其中通常联合使用各种并行策略。此外,优化技巧对于训练稳定性和模型性能也很重要
- ●能力引导:作为技术手段,设计合适的任务指令或具体的ICL策略可以激发这些能力。例如,通过包含中间推理步骤,CoT提示已被证明对解决复杂的推理任务
- 2.1 大语言模型的背景
笔记-《A Survey of Large Language Models》
于 2024-03-20 09:22:04 首次发布