DeepSeek R1 对比 AlphaGo，Zero 的思考过程_deepseek 与alphago-优快云博客

本文链接：https://blog.youkuaiyun.com/AIBigModel/article/details/145380815

作者：真中合欢
原文：https://zhuanlan.zhihu.com/p/19897045280

等了好久，终于等来R1的论文，我在当天晚上第一时间拜读。整篇论文的实验和理论给我一种简洁的优雅，和DeepSeek-V3那篇论文的感觉完全不同。读论文的过程中，我就想起了曾经看过的AlphaGo。于是也想发表一些浅显的看法，有不对的地方欢迎指出。

Reward设计

读完这篇论文，或者说读论文的过程中，R1的reward模型就给我留下了深刻印象：基于规则的奖励模型。

R1在文中提到，自己为什么没有用PRM：

第一，在一般推理中，明确界定细粒度的推理步骤比较困难。第二，判断当前推理中间步骤是否正确非常困难。使用模型进行自动标注差强人意，而手动标注不利于扩大规模。第三，一引入基于模型的 PRM，就不可避免地会有奖励劫持问题，动态重训奖励模型资源开销大。

我非常认同这一观点。因为从事LLM之初，我首先负责的是预训练，所以一个方法能否 scaling up 成为了我后面做持续训练、post-train时，评估这个方法最终能不能work并上到线上模型的重要维度（事实也证明，这样的方法基本都是work的），所以我很认同第二点。虽然现在有很多MC构造数据训练PRM的方法可以scaling up，但是前段时间qwen 数学推理的论文也提到了MC的方法就是会有幻觉，不如llm as judge，更不如人类标注，这里R1索性不用PRM了。但是r1因为要避免reward hacking，直接连基于模型的ORM都抛弃了，我觉得还是有魄力的。毕竟有不少工作表明了稠密reward在抗噪和提点方面的优势。但是仔细想想，其实qwen的那篇论文也提到了ORM有一定的PRM的特性，其实也会出幻觉(hacking)。