DeepSeek 汇总一下PRM和ORM的主要论文

taoqick

于 2025-04-02 05:10:10 发布

阅读量463

点赞数 4

CC 4.0 BY-SA版权

文章标签：深度学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/taoqick/article/details/146929183

以下是关于过程奖励模型（PRM）和结果奖励模型（ORM）的主要研究论文及其核心贡献的汇总：

PRM（Process Reward Model）相关论文

OpenAI《Let’s Verify Step by Step》
- 贡献：首次系统对比了过程监督（PRM）与结果监督（ORM）在数学推理任务中的效果。研究表明，PRM通过逐步骤反馈显著提升模型在复杂推理中的准确性和泛化能力，尤其在长思维链场景下效果更优。
- 方法：基于GPT-4微调，收集人工标注的PRM800K数据集，通过步骤级概率乘积计算最终奖励分数。实验显示PRM在MATH数据集上的表现优于ORM 8%以上。
隐式PRM《Free Process Rewards Without Process Labels》
- 贡献：提出无需中间步骤标注的隐式PRM训练方法，通过参数化结果奖励模型（ORM）为策略与参考模型的对数似然比，实现过程奖励的自动学习。该方法在数据效率上提升38倍，性能超越传统PRM基线。
- 创新点：结合交叉熵损失和主动学习策略，即使在单响应训练场景下仍能优化生成模型。
Google DeepMind《PAV：过程优势验证器》
- 贡献：提出基于过程优势验证器（PAV）的全自动标注方法，通过预测步骤级优势（即步骤前后正确概率的变化）优化搜索和强化学习效率。实验显示PAV在测试时搜索准确率提升8%，计算效率提升1.5-5倍。
- 应用：在六机器人焊接任务中，PAV驱动的RL样本效率提升6倍，解决了传统PRM依赖人工标注的瓶颈。
Qwen2.5-Math-PRM系列
- 贡献：阿里巴巴Qwen团队提出混合蒙特卡洛估计与LLM评判机制的PRM框架，结合一致性过滤和硬标签技术，显著降低数据噪声。该模型在PROCESSBENCH基准上的F1分数达78.3%，优于GPT-4等模型。
- 创新：通过共识过滤（Consensus Filtering）整合MC估计与LLM-as-a-judge，提升逐步错误识别的鲁棒性。

ORM（Outcome Reward Model）相关论文

OpenAI对比研究
- 贡献：通过MATH数据集实验验证了ORM仅依赖最终答案监督的局限性，发现其在复杂推理任务中易受稀疏奖励信号影响，导致搜索效率低下。
- 结论：ORM适用于短推理链任务，但在长路径优化中表现弱于PRM。
结果监督的强化学习应用
- 代表性研究：如《On Delaying Collision Checking in PRM Planning》探讨了ORM在多机器人协同路径规划中的效率问题，提出延迟碰撞检测策略以减少计算开销。
- 场景：ORM在集中式规划（如36自由度机器人系统）中表现优于解耦式规划，但需依赖高质量结果标签。
组织管理领域的ORM研究
- 应用扩展：在非技术领域（如管理科学），ORM被用于评估模型输出的整体质量，例如《Organizational Research Methods》中关于控制变量、数据质量评估的实证研究。
- 局限性：强调结果导向可能导致中间步骤偏差积累，需结合过程指标优化。

对比与融合研究

PRM vs. ORM效能分析：多项研究表明，PRM在分布外泛化、信用分配（Credit Assignment）和对齐安全性（Alignment）上优于ORM，尤其在需要透明推理的场景（如数学、编程）中优势显著。
混合方法：如隐式PRM和PAV验证器的提出，尝试结合ORM的数据效率与PRM的细粒度反馈，推动两阶段训练范式（先ORM后PRM）的发展。

总结

PRM的核心创新在于通过逐步骤反馈优化模型推理路径，而ORM更注重最终结果的质量评估。当前研究趋势聚焦于降低PRM的标注成本（如隐式学习、自动标注）和提升ORM的稀疏信号利用效率。未来方向可能包括多模态PRM、动态奖励调整机制，以及面向工业场景的端到端优化框架。

如需具体论文链接或进一步解读，可参考上述文献的原始出处。

博客等级

码龄13年

478
原创

1348
点赞

2713
收藏

656
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: DeepSeek 如何系统性的解决大模型的幻觉问题？

下一篇：: DeepSeek总结常用的CoT方法（ToT、GoT）

最新评论

图片视频抹除算法总结Inpaint
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
分析transformer模型的参数量、计算量、中间激活、KV cache、bf16、fp16、混合精度训练
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
LeetCode 1032. Stream of Characters 4行Trie树
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
旋转式位置编码Rotary Position Embedding（RoPE）
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
量化QAT QLoRA OBD OBS GPTQ
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。