QWEN2.5-MATH TECHNICAL REPORT: TOWARD MATHEMATICAL EXPERT MODEL VIA SELFIMPROVEMENT

UnknownBody

已于 2024-11-26 17:22:49 修改

阅读量253

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily Technical Report 文章标签：语言模型人工智能

于 2024-11-23 09:45:00 首次发布

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/143888841

LLM Daily 同时被 2 个专栏收录

1691 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Technical Report

30 篇文章

订阅专栏

本文是LLM系列文章，针对《QWEN2.5-MATH TECHNICAL REPORT: TOWARD MATHEMATICAL EXPERT MODEL VIA SELFIMPROVEMENT》的翻译。

摘要

在本报告中，我们提出了一系列数学专用的大型语言模型：Qwen2.5-Math 和 Qwen2.5-Math-Instruct-1.5B/7B/72B。 Qwen2.5系列的核心创新在于将自我提升的理念融入到从训练前、训练后到推理的整个流程中：（1）在训练前阶段，Qwen2-Math-Instruct用于生成大规模、高质量的数学数据。（2）在训练后阶段，我们通过对 Qwen2-Math-Instruct 进行大量采样来开发奖励模型（RM）。然后将该 RM 应用于监督微调 (SFT) 中的数据迭代演化。有了更强大的SFT模型，就可以迭代地训练和更新RM，进而指导下一轮SFT数据迭代。在最终的 SFT 模型上，我们采用终极 RM 进行强化学习，从而产生了 Qwen2.5-Math-Instruct。 (3)此外，在推理阶段，使用RM来指导采样，优化模型的性能。 Qwen2.5-Math-Instruct支持中文和英文，并具备先进的数学推理能力，包括思想链（CoT）和工具集成推理（TIR）。我们在 GSM8K、MATH、GaoKao、AMC23 和 AIME24 等 10 个中英文数学数据集上评估我们的模型，涵盖了从小学水平到数学竞赛问题的一系列困难。旗舰模型 Qwen2.5-Math-72B-Instruct 的性能显着优于开源模型和领先的闭源模型（例如 GPT4o、Gemini Math-Specialized 1.5 Pro）。尤其是在充满挑战的AMC 2023中，在RM的协助下，Qwen2.5-Math-72B-Instruct成功解决了几乎所有问题。 Qwen2.5-Math-7B-Instruct 在性能上超越了 Qwen2-Math-Instruct 72B。在 CoT 和 TIR