复杂推理：大型语言模型的“北极星“能力

OneFlow深度学习框架

已于 2023-05-30 09:48:18 修改

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：业界观点文章标签：语言模型人工智能自然语言处理 ChatGPT GPT

于 2023-05-10 08:03:59 首次发布

本文链接：https://blog.youkuaiyun.com/OneFlow_Official/article/details/130613071

本文探讨了大型语言模型如何实现复杂推理能力，包括预训练、微调和强化学习的方法，以及提示工程在提升模型推理性能中的作用。复杂推理被认为是区分大模型与小模型的关键因素，有望使语言模型成为下一代计算平台。文中还介绍了评估模型推理能力的Chain-of-thought Hub，并指出大型模型如GPT-4和LLaMA在复杂任务中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（在天体摄影中，当使用长曝光拍摄星轨时，北极星位于星轨的中心，始终指向真正的北方。在古代，它为旅行者指引方向。）

作者 | 符尧

爱丁堡大学博士生

最近，很多关于较小模型的研究取得了令人振奋的对话能力，这让人们想象，是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说，语言模型具有多维能力，所以模型之间的相互对比较为困难。找到正确的衡量标准对于开发强大的语言模型至关重要。在目前阶段，研究者们急切想知道什么是度量大语言模型潜力的关键因素。

在 GPT-4 发布时的博客中，作者写道：“在一次随意的谈话中，GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂程度达到足够的阈值时，差异就会显现出来。”这意味着，复杂任务很可能是大型和小型语言模型的关键差异因素。

更重要的是，复杂推理为基于语言模型构建大量应用程序提供了机会，从而使语言模型有机会成为下一代计算平台 / 操作系统。这有可能从根本上改变人类与机器的交互方式，重塑整个计算生态系统。

在这篇文章中，我们将仔细分析、讨论如何让大语言模型拥有强大的复杂推理能力。

1 动机：大语言模型作为新一代计算平台

我们研究复杂推理的原因有两个：

正如上文提到的，复杂推理是标志着小模型与大模型差异的关键因素，这一点在 GPT-4 发布文章中已经讨论过。
复杂推理是使模型成为下一代操作系统的核心能力。

将语言模型视为下一代操作系统的愿景尤为有趣，因为它为构建新应用程序和创建基于语言模型的计算生态系统（可能比超级应用程序如 ChatGPT 提供更大的机会）开辟了无数可能性。复杂推理能力是基础，因为如果我们希望模型成为新的操作系统，它需要能够通过与工具、用户和外部环境的所有元素互动来完成复杂的指令。

本文研究了如何训练具有强大复杂推理能力的模型，如何进行提示工程以充分发挥模型的推理能力，以及如何评估模型的推理性能。本文的内容分为以下几部分：

在第 2 部分，我们讨论了构建具有强大复杂推理能力的语言模型的现有方法。复杂推理的方案与通用大型语言模型（LLM）开发的方案相似，包括三个阶段：持续训练 (continue training)、指令微调 (instruction finetuning) 和强化学习 (reinforcement learning)。我们还会进一步讨论代码与推理之间令人惊讶的耦合关系。
在第 3 部分，我们讨论了复杂推理的提示工程 (prompt engineering) 技术。当语言模型成为新一代操作系统内核时，提示工程 / 场景学习将成为新一代脚本编程 (shell script)。
在第 4 部分，我们讨论了如何评估大型语言模型的推理能力。我们介绍 Chain-of-thought Hub，这是一个包含100多个推理任务的数据集合，清楚地标示了大型与小型模型的差异。我们重点介绍了 LLaMA 65B 的出色表现。我们认为它具有非常强大的潜力，可作为再现 ChatGPT-3.5 的基座模型。

2 增加大语言模型推理能力的方案

推理的方案与构建通用大型语言模型和聊天机器人的方案密切相关。总共有三个阶段：

预训练 / 持续训练：在这个阶段，我们通常在大型数据集（如科学文献或代码数据）上训练大型模型。
有监督微调：在这个阶段，我们对模型进行微调，以便完成复杂任务的指令。
强化学习：在这个阶段，我们使用诸如任务是否已全部/部分完成的信号作为奖励。

我们进一步回顾了在代码上进行训练也可以提高模型推理能力的假设。因此，在我们的文献分析中，我们同时考虑推理和编码。我们将看到，就学习方法而言，这两者之间存在惊人的相关性。

2.1 预训练与持续训练

我们分析以下几项研究：

Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models
- 在来自 Arxiv 论文的 38.5B 的 token 上继续训练 PaLM 540B。
- 在 MATH （一个需要使用 LaTeX 格式回答问题的困难数据集），上的得分为 33.6（GPT-4 的得分是 42.5）
Taylor et. al. 2022. Galactica: A Large Language Model for Science
- 在包含论文、代码、参考资料、知识库和其他内容的 106B token 上预训练一个120B语言模型。
- 在MATH上的表现为 20.4（Minerva 33.6，GPT-4 42.5）