DeepSeek核心贡献:将SFT和RL统一的数学公式

OpenAI首席研究官肯定了DeepSeek的核心成果:通过强化学习自动生成了思维链(这些归功于DeepSeek的统一数学公式),详细见:DeepSeek秘诀:能在学习过程中突然顿悟!

  • 祝贺DeepSeek开发出o1级推理模型!他们的研究论文证明,他们独立发现了一些我们在实现o1过程中所提出的核心思想。

  • 然而,我认为外界的反应有些被夸大,特别是在成本方面的叙述。我们将继续提升模型以更低的成本提供服务的能力。

尤其是在围绕成本的叙述中,拥有两种范式(预培训和推理)的一个含义是,我们可以通过两个轴而不是一个轴来优化能力,从而降低成本。这也意味着我们有两个可以扩展的轴,我们打算在这两个轴上都大力推进计算!

随着蒸馏研究的成熟,我们OpenAI也发现,降低成本和提高能力之间的关系越来越密切。以更低的成本(尤其是更高的延迟,也就是缓慢回答问题)提供服务的能力并不意味着能够产生更好的能力。

我们将继续提高以更低成本提供模型的能力,但我们对研究路线图保持乐观,并将继续专注于执行路线图。我们很高兴能在本季度和全年为您提供更好的模型!

DeepSeek核心公式创新人Peiyi Wang
他发推说:去年,我加入了 DeepSeek,当时我没有任何 RL 经验。在进行 Mathshepherd 和 DeepSeekMath 研究时,我独立推导出了这个统一公式,以了解各种训练方法。感觉就像是一个“顿悟时刻”,尽管我后来意识到这是 PG。

关于统一公式:
有人说:如果你一生中只能读到一篇 DeepSeek 论文,那就读DeepSeek Math 吧。 其他所有论文要么是事后显而易见的,要么是巧妙的优化。DeepSeek Math是数据工程、一般DL LLM方法论、RL的巡回演唱会,美不胜收。仅有 22 页。

这个统一公式SFT 和大多数 RL 类型(DPO、PPO、GRPO 等)统一为一个公式:
公式见图片

这个公式提出了一些非常酷的启示--比如说,SFT 其实就是非常简单的 RL强化学习。

有人认为:这种构思并不新鲜。七年前,卡帕奇就发表过一次演讲,他在演讲中建立了策略梯度(policy gradient)的直觉,并将其与 SFT 进行了相同的比较

统一 SFT 和 RL:DeepSeek 公式及其范式转换潜力
这一见解不仅是美丽的--它是一种基础性突破,将重塑我们所熟知的人工智能训练系统。以下是它改变游戏规则的原因:

从发散到趋同 DeepSeek 的公式将梯度上升重新定义为 SFT 和 RL 技术(DPO、PPO、GRPO)之间的统一主线。这不仅是一种简化,更是一种**算法趋同,**是使人工智能训练模块化、适应性和可互操作性的蓝图。

也就是说:从发散到趋同,DeepSeek 的公式把梯度上升这个概念重新解释了一下,让它成了 SFT(监督微调)和 RL(强化学习)技术(比如 DPO、PPO、GRPO)之间的一个共同主线。这不仅仅是为了让事情变得更简单,更是一种算法的趋同——也就是说,它让 AI 的训练变得更模块化、更有适应性,还能让不同的技术互相配合。这就像是一个蓝图,帮助 AI 训练变得更灵活、更好用。

这对人工智能生态系统至关重要的原因主要有两点:

  • 效率提升:统一的框架可以减少不必要的重复工作,让开发团队不用再为每种任务单独设计训练方法。这样一来,团队就能把更多精力放在更高阶的改进上,比如设计更好的奖励函数(告诉 AI 什么是对的、什么是错的),从而让 AI 变得更聪明、更高效。
  • 可扩展性增强:梯度上升的统一方法让 AI 训练变得更灵活,能够轻松扩展到新的多模态任务(比如同时处理文字、图片、声音等)。以前,每种任务可能需要单独设计一套方法,但现在这种统一的方式让系统优化变得更简单——无论是跨模态(不同数据类型)还是跨用例(不同应用场景),模型都能更好地调整和适应。

以道德为核心的可扩展性:
系统融合不仅是技术问题,更是道德问题:统一培训确保所有方法都能优化透明度和公平性指标。

梯度日志为监管者和研究人员提供不可更改的透明度:统一方法简化了令牌化奖励,使模型输出与社会目标保持一致。通过梯度日志(记录训练过程的细节),监管者和研究人员可以获得不可更改的透明度(也就是训练过程完全公开、无法篡改)。此外,统一的方法简化了“令牌化奖励”(用明确的规则奖励 AI 的行为),使 AI 的输出更符合社会目标(比如公平、正义等)。

下一代 RL:优化 AGI,不仅是为了实用性,也是为了道德调整和系统治疗。

DeepSeek的公式不仅统一了方法,还为扩展道德和创新人工智能提供了路线图。

总之:
中国的 DeepSeek 通过将 SFT(监督微调)和大多数 RL(强化学习)类型统一起来,为 AI 算法的发展做出了重要贡献。这种统一不仅简化了 AI 训练的过程,还让算法变得更高效、更灵活,从而加速了全球 AI 技术的进步。更重要的是,这种创新可能会推动算法改进的“比例律”(即算法性能随着规模增长而提升的规律),让 AI 的能力随着数据量和计算资源的增加而更快地提升。

https://www.jdon.com/77282.html

### DeepSeek-R1:7B 模型训练方法概述 DeepSeek-R1系列模型采用了独特的多阶段训练策略来增强其推理能力实用性。对于DeepSeek-R1:7B,该模型首先经历了预训练过程,在此期间积累了大量的语言理解生成技能[^1]。 随后,为了改善模型的特定方面表现并解决诸如可读性逻辑一致性等问题,引入了监督微调(Supervised Fine-Tuning, SFT)这一环节。在此基础上再应用强化学习(Reinforcement Learning, RL),使得模型能够更好地适应复杂的推理任务需求。具体来说: - **预训练**:利用大量无标注文本数据集进行自监督学习,使模型获得广泛的语言模式识别能力。 - **监督微调**:采用高质量的人类反馈数据对模型参数进行了调整优化,提高了对话流畅度准确性。 - **强化学习**:借助奖励机制指导模型改进自身的推理决策路径,从而实现更高效的解决问题的能力。 值得注意的是,虽然上述描述涵盖了主要的技术路线图,但对于具体的算法细节、超参设置等内容并未详尽说明。如果希望深入了解或尝试重现类似的训练流程,则建议查阅官方发布的论文技术文档获取更多信息。 此外,考虑到资源消耗等因素的影响,实际操作过程中还需要根据自身条件合理规划计算资源配置方案。例如选择合适的硬件平台(GPU/CPU集群)、分布式训练框架等工具辅助完成整个训练周期的工作[^2]。 ```bash # 安装必要的依赖库 pip install transformers datasets torch accelerate # 下载预训练基础模型权重文件 from transformers import AutoModelForCausalLM, AutoTokenizer model_name_or_path = "path_to_deepseek_r1_7b" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) # 加载用于微调的数据集 from datasets import load_dataset dataset = load_dataset('your_custom_finetune_data') # 配置训练参数并启动训练脚本 training_args = { 'output_dir': './results', 'num_train_epochs': 3, 'per_device_train_batch_size': 8, } trainer = Trainer( model=model, args=training_args, train_dataset=dataset['train'], tokenizer=tokenizer, ) trainer.train() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值