主要内容
- 研究背景:大语言模型(LLMs)在泛化能力上表现出色,但在系统推理方面存在问题,常依赖浅层模式匹配和启发式方法。基于强化学习和思维链提示的后训练策略虽有进展,但对由此产生的大推理模型(LRMs)在数学和编程领域之外的推理能力了解不足。
- 相关工作:介绍了空间推理、系统泛化、基于规则的推理与LLMs相关的研究工作,指出当前研究的不足,引出本文使用STaR基准测试评估LLMs和LRMs推理能力的研究。
- STaR问题:STaR基准测试包含空间和时间推理问题,涉及RCC - 8和区间代数(IA)。问题实例以有向标记图形式呈现,需结合多条路径信息推断指定实体间关系,通过控制路径数量和长度调节难度。
- 实验设置:将组合表作为提示的一部分,用整数编码图和答案,以零样本、少样本和微调三种设置评估LLMs和LRMs,使用多个模型在RCC - 8和IA任务上进行实验。
- 实验结果:非推理模型(LLMs)在零样本和少样本设置下表现不佳,微调后虽有提升,但在需要系统推理的实例上仍表现较差。推理模型o3 - mini在零样本设置下,单路径问题表现较好,但多路径问题性能下降,蒸馏的Deepseek - R1模型表现不佳。
- 分析:微调后的LLMs能在部分简单关系上取得好成绩,但无法系统应用规则;o3 - mini能系统应用规则,但存在错误且多路径推理能力有限。推理模型o3 - mini生成的输出令牌数会随路径数增加而减少。

订阅专栏 解锁全文
1528

被折叠的 条评论
为什么被折叠?



