上海交通大学震撼发布：首个OpenAI O1项目复现报告，揭秘独家经验！

本文链接：https://blog.youkuaiyun.com/AIBigModel/article/details/142823531

来源 | 机器之心

团队介绍：本项目的核心开发团队主要由上海交通大学 GAIR 研究组的本科三年级、四年级学生以及直博一年级研究生组成。项目得到了来自 NYU 等一线大型语言模型领域顶尖研究科学家的指导。

详细作者介绍见：https://github.com/GAIR-NLP/O1-Journey#about-the-team。

在人工智能领域掀起巨浪的 OpenAI o1 模型发布三周后，一支由高校年轻研究者组成的团队今天发布了题为 "o1 Replication Journey: A Strategic Progress Report (o1 探索之旅：战略进展报告)" 的研究进展报告。这份报告的独特之处在于（1）不仅提出并验证了 “旅程学习” 的技术的巨大潜力（研究者也认为是 o1 取得成功的关键技术）：通过 327 条训练样本，鼓励模型学会反思、纠错、回溯，其在复杂数学题目上表现绝对性能就超过了传统监督学习 8% 以上，相对性能提升超过 20%;（2）并且，其前所未有的透明度和即时性，不仅详细记录了团队在复现过程中的发现、挑战、试错和创新方法，更重要的是，它倡导了一种全新的 AI 研究范式。研究团队负责人表示：" 我们的主要目标不是达到与 OpenAI 的 o1 相当的性能 —— 考虑到可用资源有限，这是一个极具挑战性的任务。相反，我们的使命是透明地记录和分享我们的探索过程，聚焦于我们遇到的根本问题，发现新的科学问题，并识别导致 o1 的成功的关键因素，并与更广泛的 AI 社区分享我们的试错经验。o1 技术无疑会成为全球各大 AI 科技公司争相复现的目标。如果我们能够及早分享一些复现过程中的经验教训，就能帮助其他公司减少不必要的试错，从而降低全球范围内 o1 技术复现的总体成本和时间。这不仅有利于推动技术的快速发展，也能促进整个 AI 行业的共同进步。”

团队提出的模型在同一道数学题上，与 OpenAI 的 o1-preview （答对）及 GPT-4o（答错）的比较实例，证明旅程学习不断试错、反思、自我纠正的能力在复杂推理任务场景上非常关键。

技术报告链接：https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report.pdf
Github 链接：https://github.com/GAIR-NLP/O1-Journey
o1 讨论资源：https://github.com/GAIR-NLP/O1-Journey/tree/main/resource

该报告发现了什么？从 “"捷径学习"” 到 “旅程学习”，从 “浮光掠影” 到 “深耕细作”

图：从 "捷径学习" 到 "旅程学习" 的范式转变。这是一个用于推理任务的搜索树。对于数学问题解决任务，根节点代表初始问题，而叶节点则是最终结论。绿色节点表示正确答案，红色节点表示错误答案。传统上，学习主要集中在对直接从根到叶的捷径路径进行监督训练。然而，本研究探索了对整个探索路径进行监督学习，这包括了试错和纠正的过程。

团队认为，大多数现有的机器学习或大模型训练方法（如监督式微调）都可以被归类为 "捷径学习" (Shortcut Learning)，即模型学习到达正确答案的直接路径。这种传统范式虽然在特定、明确定义的任务中可能有效，但在面对复杂、动态和开放性问题时显示出明显的局限性。捷径学习具有以下几个关键特征：(1) 注重快速结果：强调在短时间内达到特定的性能指标或完成特定任务。(2) 高度依赖数据：性能改进通常依赖于增加训练数据量，而非改进学习算法本身。(3) 泛化能力有限：在训练数据分布之外的场景中，性能可能会急剧下降。(4) 缺乏自我纠正能力：这些系统通常缺乏识别和纠正自身错误的能力。尽管捷径学习推动了人工智能的许多进步，但它难以产生真正智能和可靠的人工智能系统，无法应对现实世界挑战的复杂性。随着我们追求更高级形式的人工智能甚至超级智能，这种方法的局限性变得越来越明显。

认识到这些缺点，本文提出了一种名为 "旅程学习"（Journey Learning) 的新范式。旅程学习旨在使人工智能系统能够通过学习、反思、回溯和适应不断进步，就像人类一样，从而展现出更高水平的智能。

图："捷径学习"(Shortcut Learning) 和 "历程学习"(Journey Learning) 在 MATH500（Lightman 等人，2024 年）上的表现。

如图所示，团队提出了 "旅程学习" 范式，它鼓励模型不仅学习捷径，还要学习完整的探索过程，包括试错、反思和回溯。仅使用 327 个训练样本，不借助任何额外训练技巧，旅程学习在 MATH 数据集上的表现就超过了传统监督学习 8% 以上，展示了其极其强大的潜力。作者也认为这是 o1 技术中最关键的组成部分。