目录
GPT-o1 与 DeepSeek-R1 中的 CoT 比较
冷启动(SFT + 无监督预训练)在 DeepSeek R1 中的作用
DeepSeek是什么?
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。在硅谷,DeepSeek很早就被称作“来自东方的神秘力量”,也是网上热议的“杭州六小龙”之一。
DeepSeek创始人梁文锋,广东人,浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,同时是杭州幻方科技有限公司的创始人。
2024年底,DeepSeek发布了新一代大语言模型DeepSeek V3,同时宣布开源。测试结果显示,它的多项评测成绩超越了一些主流开源模型,并且还具有成本优势。
随后,在1月世界经济论坛2025年年会开幕当天,中国深度求索公司发布其最新开源模型DeepSeek R1,再次引发全球人工智能领域关注。据该公司介绍,R1模型在技术上实现了重要突破——用纯深度学习的方法让AI自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能比肩美国开放人工智能研究中心(OpenAI)的o1模型正式版,该模型同时延续了该公司高性价比的优势。据了解,深度求索公司R1模型训练成本仅为560万美元,远远低于美国开放人工智能研究中心、谷歌、“元”公司等美国科技巨头在人工智能技术上投入的数亿美元乃至数十亿美元。
为什么DeepSeek可以出圈?
DeepSeek 的 R1 版本能在短时间内引发全球关注,主要得益于三大突出优势:更开放、更高效、更普惠。
- 更开放
- 跟作为业界性能标杆的OpenAI ChatGPT 和 Antroupic Claude 相比,DeepSeek-R1 的最大区别在于开源。
- 更高效
- 多头潜注意力机制(MLA)。本技术为 DeepSeek 团队独创,针对传统 Transformer模型的“多头注意力机制”在处理长文本时容易“分心”的问题。MLA可以通过压缩关键信息,让模型更聚焦核心内容。比如阅读一篇长篇小说时,MLA能自动提取人物关系、关键情节等核心线索,减少无效信息的处理,提高推理速度,同时显存占用更低。
- 利用群体相对策略优化(GPRO),减少有监督微调(SFT)步骤。 GRPO 移除了规模庞大的 Critic 网络,通过群组相对优势估计来优化策略网络。这个大胆的尝试产生了惊人的效果:在完全没有人工标注数据的情况下,模型展现出了持续的自我进化能力,出现了所谓的“Aha moment”(顿悟时刻)。这一点其实是非常具有重要的突破,过去限制大模型发展、升级的一个重要瓶颈,就是需要人类的参与,包括数据标注和奖励,现在 DeepSeek 摆脱了这个“镣铐”,让大模型可以通过自我推理持续进化,那么剩下的就完全是机器效率问题了。这就仿佛是,从过去弯弯曲曲的羊肠小道,走上了一马平川的高速公路。
- 通过知识蒸馏的方式,将大模型的高级能力有效地转移到更小的模型中,这为 AI 技术的实际应用提供了一条可行的路径。
- 更普惠
- 对于用户而言,相比于ChatGPT,这一切是免费使用。
- 对于开发者而言,低价的原因之一,是在大模型 API 的使用场景中,用户输入有相当比例是重复的。例如或在多轮对话中,每一轮都要将前几轮的内容重复输入。因此,DeepSeek独创了上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算,从而大幅降低成本和计算时间。
DeepSeek R1的核心创新点
根据官方论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,DeepSeek 团队继承了他们前几代模型 (DeepSeek-Vx) 的经验,在强推理场景上做了如下创新:
- 采用 MOE (Mixture of Experts) 架构。 相比传统 Dense 模型,在大规模参数量级下,MOE 可以更好地分配计算资源,让不同“专家”模块精准处理特定类型任务,减少冗余计算。
- 原生 CoT 集成。 不需要在推理时刻外部强行插入提示,而是在模型训练过程中就让其内化“先思考、再回答”的模式,提升推理可读性、正确性和可解释性。
- 强化学习 (RL) 结合冷启动 (少量 SFT + 无监督预训练)。 通过 GRPO (Group Relative Policy Optimization) 等策略,逐步让模型学会在数学、编程等可自动评分的场景中提高准确度,并结合对格式、语言一致性等的奖励做细化对齐。
- 知识蒸馏到小模型。 在论文里,团队还展示了如何将 R1 学到的强推理范式传递到像 Qwen、Llama 等更小的 Dense 模型,从而让它们也能在推理任务上获得显著提升。
原生CoT
什么是COT?
2022 年,在 Google 发布的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出,通过让大模型逐步参与将一个复杂问题分解为一步一步的子问题并依次进行求解的过程可以显著提升大模型的性能。而这一系列推理的中间步骤就被称为思维链(Chain of Thought)。
区别于传统的 Prompt 从输入直接到输出的映射 <input——>output> 的方式,CoT 完成了从输入到思维链再到输出的映射,即 <input——>reasoning chain——>output>。
如上图所示,一个完整的包含 CoT 的 Prompt 往往由指令(Instruction),逻辑依据(Rationale),示例(Exemplars)三部分组成。一般而言指令用于描述问题并且告知大模型的输出格式,逻辑依据即指 CoT 的中间推理过程,可以包含问题的解决方案、中间推理步骤以及与问题相关的任何外部知识,而示例则指以少样本的方式为大模型提供输入输出对的基本格式,每一个示例都包含:问题,推理过程与答案。
以是否包含示例为区分,可以将 CoT 分为 Zero-Shot-CoT 与 Few-Shot-CoT,在上图中,Zero-Shot-CoT 不添加示例而仅仅在指令中添加一行经典的“Let's think step by step”,就可以“唤醒”大模型的推理能力。而 Few-Shot-Cot 则在示例中详细描述了“解题步骤”,让模型照猫画虎得到推理能力。
COT的作用
1、COT原则上允许模型把一个复杂问题拆解成多个步骤,也就是说需要更多推理步骤的问题可以多分点计算量。
2、COT提供了一个观察模型为何会犯错的窗口,因此也就提供了一个debug模型的机会。
3、COT能用在数学应用题、常识推理和符号操作上,也就有可能用在任何人类通过语言能解决的问题上。
4、COT非常好用,任何语言模型都可以用,加在 few-shot的样例中就能生效。省去了重新训练模型的功夫。
DeepSeek-R1 中的原生 CoT 机制
DeepSeek R1 与许多需要手动 Prompt 的大模型不同之处,在于它在训练阶段就内置了 CoT 的输出格式。
论文中描述,其 RL 过程有一条固定模板:
这样做的好处是:
- 无论用户是否在 Prompt 中要求,DeepSeek R1 都会在内部把推理思路写到标签里。
- 标签不一定被“隐藏”,这取决于具体对话接口如何渲染。DeepSeek R1 并没有强制隐藏它,但有些应用场景可能默认不把这部分显示给最终用户,以免“暴露内部思维。”
GPT-o1 与 DeepSeek-R1 中的 CoT 比较
论文中提及 DeepSeek-R1 与 GPT-o1 在多项推理基准上互有胜负,因此二者在 CoT 的支持上也有很多共同点与区别。需要注意的是:
- GPT o1 系列(OpenAI-o1-mini、OpenAI-o1-1217 等)本身就是在后续 RLHF 与相关机制里进一步加强了 CoT 的展现。它在内部实际上也是“原生地”就掌握了链接式推理,很多情况下不需要额外提示也能输出思维过程。
- DeepSeek R1 之所以强调 “原生 CoT”,主要想突出它在后期的 RL 策略和评估奖励都遭到了结构化的约束(使用 … + … 这样的格式),所以对推理过程的质量与一致性更可控,也更具可读性。
因此,两者并不存在“只有在 Prompt 强行请求才有 CoT”与“完全无 CoT Prompt 需求”这样的绝对划分,而是都具备 CoT 产生“原生化”的能力。但 DeepSeek-R1 在论文所述的训练流程中,确实更清晰地将思考过程与答案拆分为结构,让 RL 环节能够对两部分分别打分(格式奖励与正确性奖励),这也可能是它在某些推理数据集上表现优异的原因之一。
强化学习
什么是强化学习
强化学习(Reinforcement Learning, RL)是一种智能体在与环境互动过程中,通过试错和奖励机制学习如何达成目标的算法。在这个过程中,智能体会不断探索环境,采取行动,并根据环境反馈的奖励或惩罚调整自己的行为策略,最终学习到最优策略。因此,反复实验(trial and error) 和 延迟奖励(delayed reward) 是强化学习最重要的两个特征。
常用的RL算法包括PPO、GRPO和PRIME。DeepSeek使用的是GRPO算法。
冷启动(SFT + 无监督预训练)在 DeepSeek R1 中的作用
论文中提到一个分支:DeepSeek-R1-Zero,就是从无任何 SFT 的Base 模型开始,直接用 RL 做大规模训练。
- 虽然这样的做法也能显著提升推理表现,但往往会引起初始阶段混乱输出问题,如语言混杂、不可读等。
- 因此,DeepSeek-R1构建并收集了一小部分长链思维(CoT,Chain of Thought)数据,做了一个小规模高质量的 SFT(冷启动),让模型初步具备可读、基本准确的 CoT,然后再进行大规模 RL。这样能缩短模型收敛时间,也避免过多无效探索。
GRPO
GRPO与 PPO、RLHF 具有相似之处,但它摒弃了传统需要大规模价值网络 (Critic) 的范式,改为在同一个问题上采样多条回答:
- 假设对某个问题 q,采样了 G 个回答:o1, o2, …, oG;
- 给每个回答打出奖励 ri(可能包含正确性、格式得分等),接着计算标准分型的优势函数 Ai;
- 在训练新策略时,只看这些回答的相对排名(谁好谁差),不用像传统 PPO 那样用一个单独的价值网络去预测状态价值,减少了大量参数与不稳定因素;
- 同时,GRPO 也会在损失中加入 KL 惩罚,避免更新过猛导致策略崩溃。
在 DeepSeek R1 论文里,对奖励函数的设计有如下重点:
- 正确性奖励:对数学题看答案是否正确,对编程题可用编译与单测来判定。
- 格式奖励:必须按 … 和 … 输出,如果缺失或混乱则减分。
- 语言一致性:如果指定需要英文/中文,就以一定策略统计中的语言,语言杂糅严重则扣分。这点在 DeepSeek-R1-Zero 经常出现,如出现“英文+中日韩字符杂糅”的写法。
- 部分对齐奖励:用于惩罚可能不安全或明显侮辱性的回答。
多阶段迭代,从推理能力到全场景对齐:
为兼顾通用能力,论文中提到在 RL 近乎收敛后,会再采集一批语料(包括生成正确答案的推理数据),再做一次 SFT,合并如写作、角色扮演等非推理数据集,以防只剩下“会做题,不会对话”这种极端状态。然后进行第二轮 RL,对全场景进行调优。
- 最终得到的 DeepSeek R1 兼具强推理力与通用对话处理能力,达成了在各种 benchmark 上高分的结果。
参考资料
一文读懂:思维链 CoT(Chain of Thought)
【DeepSeek背后的技术】系列六:思维链(CoT)-优快云博客