本文是LLM系列文章,针对《QWEN2.5-MATH TECHNICAL REPORT: TOWARD MATHEMATICAL EXPERT MODEL VIA SELFIMPROVEMENT》的翻译。
QWEN2.5-MATH技术报告:通过自我完善迈向数学专家模型
摘要
在本报告中,我们提出了一系列数学专用的大型语言模型:Qwen2.5-Math 和 Qwen2.5-Math-Instruct-1.5B/7B/72B。 Qwen2.5系列的核心创新在于将自我提升的理念融入到从训练前、训练后到推理的整个流程中:(1)在训练前阶段,Qwen2-Math-Instruct用于生成大规模、高质量的数学数据。 (2)在训练后阶段,我们通过对 Qwen2-Math-Instruct 进行大量采样来开发奖励模型(RM)。然后将该 RM 应用于监督微调 (SFT) 中的数据迭代演化。有了更强大的SFT模型,就可以迭代地训练和更新RM,进而指导下一轮SFT数据迭代。在最终的 SFT 模型上,我们采用终极 RM 进行强化学习,从而产生了 Qwen2.5-Math-Instruct。 (3)此外,在推理阶段,使用RM来指导采样,优化模型的性能。 Qwen2.5-Math-Instruct支持中文和英文,并具备先进的数学推理能力,包括思想链(CoT)和工具集成推理(TIR)。我们在 GSM8K、MATH、G