阿里开源Qwen2.5-Math-PRM系列过程奖励模型，开启 LLM 数学推理篇章

最新推荐文章于 2025-04-10 14:04:40 发布

大模型微调部署

最新推荐文章于 2025-04-10 14:04:40 发布

阅读量1.1k

点赞数 17

文章标签：语言模型人工智能深度学习 AI大模型 LLM ai

本文链接：https://blog.youkuaiyun.com/star_nwe/article/details/145154001

版权

1.The Lessons of Developing Process Reward Models in Mathematical Reasoning

在这里插入图片描述

过程奖励模型（PRMs）作为一种颇具潜力的方法，被应用于大语言模型（LLMs）的数学推理过程监督，旨在识别并减少推理过程中的中间错误。然而，开发有效的 PRMs 面临着重大挑战，尤其是在数据标注和评估方法方面。在本文中，通过大量实验，我们证明了与 “大语言模型充当裁判” 以及人工标注方法相比，常用于 PRMs 的基于蒙特卡洛（MC）估计的数据合成，通常性能和泛化能力较差。MC 估计依赖于完成模型来评估当前步骤的正确性，这会导致步骤验证不准确。此外，我们还发现了传统的 “N 选优”（BoN）评估策略在用于 PRMs 时存在潜在偏差：（1）不可靠的策略模型生成的回答虽然答案正确，但推理过程存在缺陷，这使得 BoN 的评估标准与 PRMs 过程验证的目标不一致。（2）PRMs 对这类回答的容忍度，导致 BoN 分数虚高。（3）现有 PRMs 有很大比例的最低分数集中在最终答案步骤上，这表明 “N 选优” 优化的 PRMs 从基于过程的评估转向了基于结果的评估。

为应对这些挑战，我们提出了一种共识过滤机制，有效地将 MC 估计与 “大语言模型充当裁判” 相结合，并采用一种更全面的评估框架，该框架将回答层面和步骤层面的指标结合起来。基于这些机制，我们在 BoN 评估和逐步错误识别任务中显著提升了模型性能和数据效率。

论文: https://arxiv.org/pdf/2501.07301

2.Tensor Product Attention Is All You Need

在这里插入图片描述

将语言模型进行扩展以处理更长的输入序列，通常需要大容量的KV缓存，这会在推理过程中造成巨大的内存开销。在本文中，我们提出了张量积注意力（TPA）这一全新的注意力机制。该机制运用张量分解，以紧凑的方式表示查询、键和值，从而在推理时大幅缩减 KV 缓存的大小。通过将这些表示分解为上下文低秩分量（上下文分解），并与旋转位置嵌入（RoPE）无缝结合，TPA 在提升内存使用效率的同时，还提高了模型质量。基于 TPA，我们推出了张量积注意力Transformer（T6），这是一种用于序列建模的新型模型架构。通过对语言建模任务进行广泛的实证评估，我们证明，在困惑度以及一系列知名评估基准等各项指标上，T6 的表现均超越了包括多头注意力（MHA）、多头查询注意力（MQA）、组查询注意力（GQA）和多局部注意力（MLA）在内的标准 Transformer 基线模型。值得注意的是，TPA 的内存高效性使得在固定资源限制下能够处理长得多的序列，从而解决了现代语言模型中一个关键的可扩展性难题。相关代码可在https://github.com/tensorgi/T6。

论文: https://arxiv.org/pdf/2501.06425

3.O1 Replication Journey – Part 3: Inference-time Scaling for Medical Reasoning

在这里插入图片描述

基于我们此前对 O1 复制的研究（第一部分：历程学习 [秦等人，2024] 和第二部分：知识蒸馏 [黄等人，2024]），这项工作探究了大语言模型（LLMs）在医疗推理任务中，从诊断决策到治疗方案制定等方面，推理时间缩放的潜力。通过在不同复杂程度的医学基准数据集（MedQA、Medbullets 和 JAMA 临床挑战）上进行大量实验，我们的研究揭示了几个关键要点：

增加推理时间确实能提升性能。在仅有 500 个样本的小规模训练集上，我们的模型性能大幅提升了 6%-11%。
任务复杂度与所需推理链的长度直接相关，这证实了对于具有挑战性的问题，进行更深入的思考过程是必要的。
我们的模型生成的鉴别诊断遵循假设演绎法的原则，会列出一系列可能解释患者症状的潜在病症，并通过评估证据来系统地缩小这些可能性范围。

这些发现表明，在提升大语言模型在现实临床推理能力方面，推理时间缩放与历程学习之间存在着具有前景的协同作用。

论文: https://arxiv.org/pdf/2501.06252

4. WebWalker: Benchmarking LLMs in Web Traversal

在这里插入图片描述

检索增强生成（RAG）在开放领域问答任务中展现出卓越的性能。然而，传统搜索引擎检索到的内容可能较为浅显，这限制了大语言模型处理复杂、多层次信息的能力。为解决这一问题，我们推出了 WebWalkerQA，这是一个用于评估大语言模型网页遍历能力的基准测试。它评估大语言模型遍历网站子页面以系统提取高质量数据的能力。

我们还提出了 WebWalker，这是一个多智能体框架，通过 “探索 - 评判” 范式模拟人类的网页浏览行为。大量实验结果表明，WebWalkerQA 具有挑战性，并且通过在现实场景中的横向和纵向整合，证明了 RAG 与 WebWalker 相结合的有效性。