Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

在这里插入图片描述

文章主要内容总结

本文聚焦于大型语言模型(LLMs)的数学推理能力是否能迁移到其他领域,以探究模型在数学任务上的提升是否反映了通用问题解决能力,而非仅针对特定任务的过拟合。

  1. 研究背景:近年来,LLMs在数学推理基准(如MATH、AIME)上的表现快速提升,甚至超越人类水平,但数学推理能力的提升是否能迁移到其他领域尚不明确。
  2. 实验设计
    • 评估了20多个开源推理调优模型,覆盖数学推理、科学问答、代理规划、编码、指令遵循等任务。
    • 提出“迁移指数(Transferability Index)”量化模型从数学领域到其他推理任务和非推理任务的能力迁移。
    • 以Qwen3-14B为基础模型,通过控制实验比较仅用数学数据的强化学习(RL)和监督微调(SFT)的效果。
  3. 核心发现
    • 多数数学表现优异的模型难以将能力迁移到其他领域。
    • RL调优模型在跨领域(包括推理和非推理任务)泛
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值