推理模型的本质是让模型自己构建 CoT,并将前面推理的步骤展示出来。
现有的许多所谓的 agent,其本质上只是一个 workflow,而这些 agent 的 workflow 其实是高度结构化的,这就限制了模型的能力——这种基于 workflow 的 agent 只具有短期价值,而没有长期价值。
他最后总结说——「All in All 我们就是要训练模型能够像我们人一样思考,自由的思考!」
要用真正的激励来进行强化学习,而不要被 reward model 本身所限制。
不要搞过程激励,真正重要的是最终答案是否正确,应该以此为核心来激励模型。
当时他们不知道,但后来他们发现,DeepSeek R1 的论文中也提到了类似的观点,即不要依赖过程奖励。
所以他们后来就定下来了——Practice Program,也就是「多练习」,给模型一个能不断做题的环境。只要反复训练,就能够取得提升。
菜就多练。文章中写道:「做题,做题,还是做题!做有标准答案的题,刷起来!」
DeepSeek R1技术报告详解
DeepSeek R1 论文的标题就是「Incen