Deepseek R1-Zero关键两项发现:无需人类专家、有自己专业领域语言DSL,也就是没有SFT,有自己DSL!
ARC Prize基金会对DeepSeek发布的R1-Zero和R1“推理”系统的分析。
ARC Prize基金是谁?
ARC Prize基金会旨在定义、衡量并激励新的AGI(通用人工智能)想法。目前尚未实现AGI,主流AI行业和公众普遍认为通过扩大纯语言模型(LLM)的预训练规模就能实现突破,但ARC Prize基金会认为这并非通往AGI的正确路径。
DeepSeek发布了R1-Zero和R1系统
这些系统在ARC-AGI-1基准测试中表现与OpenAI的o1系统相当,但R1-Zero不依赖人类专家标注(SFT),仅使用强化学习(RL)。
性能对比:
-
R1-Zero:14%的准确率,无SFT,无搜索,平均11K tokens,成本0.11美元。
-
R1:15.8%的准确率,使用SFT,无搜索,平均6K tokens,成本0.06美元。
-
o1(低):20.5%的准确率,使用SFT,无搜索,平均7K tokens,成本0.43美元。
-
o3(低):75.7%的准确率,使用SFT,搜索+采样,平均335K tokens,成本20美元。
R1-Zero展示了在没有人类专家标注的情况下,通过强化学习也能实现有效的推理能力,这对于减少人类数据生成的瓶颈具有重要意义。
推理系统的三个关键维度
- 人类标注(SFT):通过人类专家标注中间推理步骤,提升推理系统的准确性和通用性。
- 推理搜索(CoT Search):通过并行的每步推理搜索,而不是线性推理,提升推理系统的适应性。
- 整体采样(Whole CoT Sampling):通过并行轨迹推理,进一步提升推理系统的性能。
R1-Zero的关键发现
- 无需SFT:R1-Zero证明在具有强验证的领域(如数学和编程),无需人类专家标注也能实现清晰且准确的推理。
- 内部领域特定语言(DSL):R1-Zero通过强化学习在token空间中创建了自己的内部DSL,但目前还无法发现更广泛的共享词汇。
- 未来研究方向:未来的研究可能会集中在如何通过强化学习发现更通用的词汇,以提升推理系统的通用性。
AI推理系统的经济影响
- 可靠性与成本:AI推理系统现在可以通过增加计算成本来提升准确性和可靠性,这将推动对推理计算的巨大需求。
- 训练成本向推理成本转移:未来的AI系统将更多地在推理阶段投入成本,而不是在训练阶段。
- 数据生成的转变:推理系统可以通过搜索、合成和验证生成“真实”数据,而不是依赖于传统的预训练数据。这种数据生成方式可能会导致AI系统开发者之间的权力集中,因为拥有更多付费用户的开发者能够生成更多高质量数据,从而提升模型性能。
R1的开放性和可复现性将促进更多团队探索推理和搜索的极限,推动创新,增加实现AGI的可能性。R1-Zero和R1的发布为AI领域带来了新的研究方向和经济模式,未来可能会看到更多基于这些系统的创新和突破。
其他DeekSeek相关:
1、微软免费为Copilot的所有用户提供了Think Deeper。现在,每个人都可以在Copilot中免费访问OpenAI世界级的o1推理模型。
2、DeepSeek-R1-Distill-Qwen-1.5B-ONNX模型完全在客户端使用 webgpu: