QWEN2.5-MATH TECHNICAL REPORT: TOWARD MATHEMATICAL EXPERT MODEL VIA SELFIMPROVEMENT

本文是LLM系列文章,针对《QWEN2.5-MATH TECHNICAL REPORT: TOWARD MATHEMATICAL EXPERT MODEL VIA SELFIMPROVEMENT》的翻译。

摘要

在本报告中,我们提出了一系列数学专用的大型语言模型:Qwen2.5-Math 和 Qwen2.5-Math-Instruct-1.5B/7B/72B。 Qwen2.5系列的核心创新在于将自我提升的理念融入到从训练前、训练后到推理的整个流程中:(1)在训练前阶段,Qwen2-Math-Instruct用于生成大规模、高质量的数学数据。 (2)在训练后阶段,我们通过对 Qwen2-Math-Instruct 进行大量采样来开发奖励模型(RM)。然后将该 RM 应用于监督微调 (SFT) 中的数据迭代演化。有了更强大的SFT模型,就可以迭代地训练和更新RM,进而指导下一轮SFT数据迭代。在最终的 SFT 模型上,我们采用终极 RM 进行强化学习,从而产生了 Qwen2.5-Math-Instruct。 (3)此外,在推理阶段,使用RM来指导采样,优化模型的性能。 Qwen2.5-Math-Instruct支持中文和英文,并具备先进的数学推理能力,包括思想链(CoT)和工具集成推理(TIR)。我们在 GSM8K、MATH、G

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值