一文搞懂DeepSeek - DeepSeek-R1训练过程

大模型本地部署

已于 2025-03-18 14:07:20 修改

阅读量731

点赞数 17

文章标签：人工智能深度学习产品经理算法机器学习大模型 deepseek

于 2025-03-18 14:07:04 首次发布

本文链接：https://blog.youkuaiyun.com/youmaob/article/details/146340231

版权

DeepSeek-R1的亮点在于其出色的数学和逻辑推理能力，这使其区别于一般的通用大语言模型（LLM）。DeepSeek-R1的训练目标是达到与OpenAI o1相似的推理能力，但技术路线有所不同。R1并没有采用o1 test-time compute（测试时计算），而是注重通过强化学习（RL）和监督微调（SFT）的结合来提升模型的性能。

DeepSeek-R1训练过程是一个复杂但高效的过程，旨在通过多个阶段的训练，提升模型的推理能力和对齐人类偏好。整个训练过程包括冷启动监督微调、面向推理强化学习、拒绝采样和多领域监督微调以及全场景强化学习四个阶段，每个阶段都对模型的推理能力进行了针对性的提升。
请添加图片描述

一、冷启动监督微调

第一阶段：冷启动监督微调（Cold Start SFT）是什么？冷启动监督微调通过准备高质量的长链思维数据（CoT Data）并对基模型（DeepSeek-V3 Base）进行监督微调（SFT），为模型提供了初始的规范化推理能力。

请添加图片描述

为什么需要启动监督微调（Cold Start SFT）？直接从基模型（如DeepSeek-V3-Base）启动强化学习（RL）得到的模型（如DeepSeek R1-Zero）可能导致输出混乱（如语言混合、格式不统一），以及缺乏人类友好的推理模式，因此需要为模型提供初始的规范化推理行为。

在准备好长链思维数据（CoT Data）后，使用这些数据对基模型（如DeepSeek-V3-Base）进行监督微调。

将CoT数据作为输入，通过模型生成相应的输出。
计算模型输出与真实标签（即CoT数据中的推理过程）之间的误差。
根据误差更新模型的参数，以减小误差并提高模型的准确性。

请添加图片描述

二、面向推理强化学习

第二阶段：面向推理强化学习（Reasoning-Oriented RL）是什么？DeepSeek-R1运用强化学习算法来精炼模型的推理策略，使模型在与环境的互动中持续学习进步。通过不断尝试与纠正错误，模型能够探寻出最佳的决策路径。

在冷启动的基础上，DeepSeek-R1应用了大规模的强化学习过程。这个过程侧重于提升模型在编码、数学、科学和逻辑推理等任务上的能力。此外，DeepSeek-R1还引入了语言一致性奖励等机制，有效解决了语言混合等问题，从而显著提升了模型的推理性能。

请添加图片描述

三、拒绝采样和多领域监督微调

第三阶段：拒绝采样和多领域监督微调（Multi-Domain SFT）是什么？拒绝采样确保了训练数据的准确性和高质量，而多领域监督微调则通过引入多领域数据，进一步扩展了模型的能力和适用范围。

一、拒绝采样（Rejection Sampling）

拒绝采样技术于强化学习收敛后应用，从模型生成的响应中筛选正确推理轨迹，确保后续训练数据质量，提升模型推理能力。

二、多领域监督微调（Multi-Domain SFT）

多领域监督微调利用混合数据集，结合正确推理轨迹与非推理数据，进一步提升模型在多个领域的性能。

请添加图片描述
在面向推理的强化学习达到收敛状态后，DeepSeek团队巧妙地运用了所得的checkpoint，通过拒绝采样技术，精心生成了一批新的监督微调（SFT）数据。随后，他们利用这批数据进行了多领域的监督微调，这一举措极大地提升了DeepSeek-R1在第三阶段的推理能力和泛化性能。
请添加图片描述

四、全场景强化学习

第四阶段：全场景强化学习（Final-RL Alignment）是什么？在全场景强化学习阶段，DeepSeek团队通过收集人类偏好数据、提升复杂场景泛化能力以及采用先进强化学习算法，确保模型与人类期望对齐并学习到最优策略。

请添加图片描述
全场景强化学习（Final-RL Alignment）是DeepSeek-R1训练的最后阶段，通过强化学习技术，使模型在开放域问答、长文本理解等复杂场景中表现稳健，同时提升模型的安全性和实用性。这一阶段的主要目的是确保模型的行为和输出与人类期望的目标和价值观保持一致。
请添加图片描述

我的DeepSeek部署资料已打包好（自取↓）
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码甚至预测市场趋势——答案就藏在大模型技术里！

❗️为什么你必须了解大模型？

1️⃣ 薪资爆炸：应届大模型工程师年薪40万起步，懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构：金融、医疗、教育正在被AI重塑，不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车：90%的进阶技巧不需写代码！会说话就能指挥AI

（附深度求索BOSS招聘信息）
在这里插入图片描述

⚠️警惕：当同事用DeepSeek 3小时干完你3天的工作时，淘汰倒计时就开始了。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？老师啊，我自学没有方向怎么办？老师，这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！当然这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！