DeepSeek核心贡献：将SFT和RL统一的数学公式

最新推荐文章于 2025-05-03 14:09:17 发布

极道Jdon

最新推荐文章于 2025-05-03 14:09:17 发布

阅读量1.1k

点赞数 13

文章标签： javascript reactjs

本文链接：https://blog.youkuaiyun.com/cfy_banq/article/details/145393028

版权

OpenAI首席研究官肯定了DeepSeek的核心成果：通过强化学习自动生成了思维链（这些归功于DeepSeek的统一数学公式），详细见：DeepSeek秘诀：能在学习过程中突然顿悟！

祝贺DeepSeek开发出o1级推理模型！他们的研究论文证明，他们独立发现了一些我们在实现o1过程中所提出的核心思想。
然而，我认为外界的反应有些被夸大，特别是在成本方面的叙述。我们将继续提升模型以更低的成本提供服务的能力。

尤其是在围绕成本的叙述中，拥有两种范式（预培训和推理）的一个含义是，我们可以通过两个轴而不是一个轴来优化能力，从而降低成本。这也意味着我们有两个可以扩展的轴，我们打算在这两个轴上都大力推进计算！

随着蒸馏研究的成熟，我们OpenAI也发现，降低成本和提高能力之间的关系越来越密切。以更低的成本（尤其是更高的延迟，也就是缓慢回答问题）提供服务的能力并不意味着能够产生更好的能力。

我们将继续提高以更低成本提供模型的能力，但我们对研究路线图保持乐观，并将继续专注于执行路线图。我们很高兴能在本季度和全年为您提供更好的模型！

DeepSeek核心公式创新人Peiyi Wang
他发推说：去年，我加入了 DeepSeek，当时我没有任何 RL 经验。在进行 Mathshepherd 和 DeepSeekMath 研究时，我独立推导出了这个统一公式，以了解各种训练方法。感觉就像是一个“顿悟时刻”，尽管我后来意识到这是 PG。

关于统一公式：
有人说：如果你一生中只能读到一篇 DeepSeek 论文，那就读DeepSeek Math 吧。其他所有论文要么是事后显而易见的，要么是巧妙的优化。DeepSeek Math是数据工程、一般DL LLM方法论、RL的巡回演唱会，美不胜收。仅有 22 页。

这个统一公式SFT 和大多数 RL 类型（DPO、PPO、GRPO 等）统一为一个公式：
公式见图片

这个公式提出了一些非常酷的启示--比如说，SFT 其实就是非常简单的 RL强化学习。

有人认为：这种构思并不新鲜。七年前，卡帕奇就发表过一次演讲，他在演讲中建立了策略梯度（policy gradient）的直觉，并将其与 SFT 进行了相同的比较

统一 SFT 和 RL：DeepSeek 公式及其范式转换潜力
这一见解不仅是美丽的--它是一种基础性突破，将重塑我们所熟知的人工智能训练系统。以下是它改变游戏规则的原因：

从发散到趋同 DeepSeek 的公式将梯度上升重新定义为 SFT 和 RL 技术（DPO、PPO、GRPO）之间的统一主线。这不仅是一种简化，更是一种**算法趋同，**是使人工智能训练模块化、适应性和可互操作性的蓝图。

也就是说：从发散到趋同，DeepSeek 的公式把梯度上升这个概念重新解释了一下，让它成了 SFT（监督微调）和 RL（强化学习）技术（比如 DPO、PPO、GRPO）之间的一个共同主线。这不仅仅是为了让事情变得更简单，更是一种算法的趋同——也就是说，它让 AI 的训练变得更模块化、更有适应性，还能让不同的技术互相配合。这就像是一个蓝图，帮助 AI 训练变得更灵活、更好用。

这对人工智能生态系统至关重要的原因主要有两点：

效率提升：统一的框架可以减少不必要的重复工作，让开发团队不用再为每种任务单独设计训练方法。这样一来，团队就能把更多精力放在更高阶的改进上，比如设计更好的奖励函数（告诉 AI 什么是对的、什么是错的），从而让 AI 变得更聪明、更高效。
可扩展性增强：梯度上升的统一方法让 AI 训练变得更灵活，能够轻松扩展到新的多模态任务（比如同时处理文字、图片、声音等）。以前，每种任务可能需要单独设计一套方法，但现在这种统一的方式让系统优化变得更简单——无论是跨模态（不同数据类型）还是跨用例（不同应用场景），模型都能更好地调整和适应。

以道德为核心的可扩展性：
系统融合不仅是技术问题，更是道德问题：统一培训确保所有方法都能优化透明度和公平性指标。

梯度日志为监管者和研究人员提供不可更改的透明度：统一方法简化了令牌化奖励，使模型输出与社会目标保持一致。通过梯度日志（记录训练过程的细节），监管者和研究人员可以获得不可更改的透明度（也就是训练过程完全公开、无法篡改）。此外，统一的方法简化了“令牌化奖励”（用明确的规则奖励 AI 的行为），使 AI 的输出更符合社会目标（比如公平、正义等）。

下一代 RL：优化 AGI，不仅是为了实用性，也是为了道德调整和系统治疗。

DeepSeek的公式不仅统一了方法，还为扩展道德和创新人工智能提供了路线图。

总之：
中国的 DeepSeek 通过将 SFT（监督微调）和大多数 RL（强化学习）类型统一起来，为 AI 算法的发展做出了重要贡献。这种统一不仅简化了 AI 训练的过程，还让算法变得更高效、更灵活，从而加速了全球 AI 技术的进步。更重要的是，这种创新可能会推动算法改进的“比例律”（即算法性能随着规模增长而提升的规律），让 AI 的能力随着数据量和计算资源的增加而更快地提升。

https://www.jdon.com/77282.html