文章主要内容总结
本文聚焦于大型语言模型(LLMs)的数学推理能力是否能迁移到其他领域,以探究模型在数学任务上的提升是否反映了通用问题解决能力,而非仅针对特定任务的过拟合。
- 研究背景:近年来,LLMs在数学推理基准(如MATH、AIME)上的表现快速提升,甚至超越人类水平,但数学推理能力的提升是否能迁移到其他领域尚不明确。
- 实验设计:
- 评估了20多个开源推理调优模型,覆盖数学推理、科学问答、代理规划、编码、指令遵循等任务。
- 提出“迁移指数(Transferability Index)”量化模型从数学领域到其他推理任务和非推理任务的能力迁移。
- 以Qwen3-14B为基础模型,通过控制实验比较仅用数学数据的强化学习(RL)和监督微调(SFT)的效果。
- 核心发现:
- 多数数学表现优异的模型难以将能力迁移到其他领域。
- RL调优模型在跨领域(包括推理和非推理任务)泛