LLM逻辑推演策略选择：推理时计算 vs 训练时计算

最新推荐文章于 2025-12-04 13:49:48 发布

原创

最新推荐文章于 2025-12-04 13:49:48 发布 · 1.6k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #自然语言处理

AI好似火焰。

近年来，我们在技术上取得了突破性进展。比如社交媒体、增强现实、平台转换如Web、移动设备等，不过，AI是一项更为重要的技术，它的意义堪比火种的发现，它有潜力改变我们物种进化的轨迹。

解锁AI潜力的“圣杯”之一就是构建能够像人类一样逻辑推理的系统。通过提升AI，尤其是大语言模型（LLM），可以分析复杂问题并应用逻辑步骤的能力。

Bagel的研究团队一直在探索这个问题。我们分析了LLM的构建技术，特别是微调技术，旨在让LLM从模式识别预测智能体发展成为真正的认知智能体。我们的深入研究涵盖了三种主要的逻辑推理类型，也就是智能：算术、常识和符号。

现在，我们想和大家分享研究成果。该研究针对的是我们认为AI进化最终目标的核心问题——人类级逻辑推理，甚至超越人类级逻辑推理（神级推理？）。

我们探索了模型开发中训练和微调阶段的技术，也探索了推理时阶段的逻辑推理，在这个阶段，LLM可以在推理过程中生成新的解决方案，即使这些解决方案并不包含在它们的训练数据集中。

逻辑推理类型

各种逻辑推理任务拓展了AI的能力。首先，让我们了解一下它们的定义。

算术逻辑推理促使机器学习以明确的方式测试问题解决能力。它迫使模型分解问题，选择多种策略，从而连接步骤以找到解决方案。这使得数学逻辑推理与其他不同。它清晰地展示了模型能在多大程度上掌握细节，并按正确的步骤使用解决方案。

常识逻辑推理颠覆了我们的预期。模型必须理解人们日常生活中奇怪的逻辑。当系统面对人类互动的怪癖时，挑战就出现了。我们理所当然的隐性规则，如门在你走进之前会打开；时间是向前流动的而非倒流的；水让物体变湿，这些显而易见的真理变成了AI系统必须解开的复杂难题。

符号逻辑推理打破了传统机器学习的模式。虽然神经网络在模糊模式匹配上表现出色，但符号要求精确。模型必须遵循严格的规则，操控抽象概念，链式逻辑推理。像一个严谨的数学家，而不是一个直觉艺术家。符号本身没有固有意义，但通过它们，我们建立起指向人类级逻辑推理的逻辑塔。

除了这些核心类型，逻辑推理还有多种形式。逻辑推理得出严格的结论，而归纳推理则进行创造性的跳跃。因果逻辑推理追踪行动与后果之间隐藏的线索。多模态逻辑推理在文本、图像和数据的复杂组合中进行理解。知识图谱则映射事实与关系之间的联系。然而，所有这些逻辑推理形式都服务于一个目标——将AI从模式匹配推动到真正的理解。从记忆的回应到新颖的见解，从预测到理解。

接下来，我们将探讨训练时间（training-time）和推理时间（Inference-time），以增强这些推理类型的能力。

1. 训练时间的策略

1.1 微调方法