DeepSeek-R1 部署使用

最新推荐文章于 2025-11-23 13:27:25 发布

原创最新推荐文章于 2025-11-23 13:27:25 发布 · 411 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

CoT 优势

在工业级 AI 系统建设中，CoT 展现出多重应用价值：

1. 复杂问题求解：通过问题分解（Problem Decomposition）将计算资源动态分配至关键推理节点；

2. 模型可解释性：推理链输出使开发者能定位错误节点（如数学公式误用、知识检索偏差），相比黑箱模型，CoT 的推理链输出使调试更有依据；

3. 跨模型泛化性：兼容 Transformer 系列、MoE 架构等主流模型，仅需添加提示词即可实现能力迁移。

在复杂推理任务中，思维链（CoT）可以显著提升模型的推理能力。然而，CoT 数据的获取一直高度依赖人工标注，难以大规模生成和应用。DeepSeek-R1 通过强化学习优化了这一流程，使模型能够自主生成高质量 CoT 数据，并公开了这一方法，让端到端训练更加高效可复现。此外，DeepSeek 还利用大模型生成的数据训练小模型，让小模型也具备强大的推理能力，从而降低推理成本，使高质量推理能力更易落地应用。

2. 训练的过程

关于模型与流程可以简单分为 4 个阶段：

1️⃣阶段一：强化学习验证，对 DeepSeek-V3 进行纯粹的强化学习，获得 DeepSeek-R1-Zero

2️⃣阶段二：数据合成模型，使用 DeepSeek-R1-Zero 生成数据训练 DeepSeek-V3，得到 DeepSeek-V3-checkpoint，并用 DeepSeek-V3-checkpoint 生成 600k 的推理数据集

3️⃣阶段三：DeepSeek-R1 训练，混合推理数据以及非推理数据集（800k），对模型 DeepSeek-V3 进行全参数微调，获得 DeepSeek-R1

4️⃣阶段四：蒸馏实验，使用与训练 R1 相同的混合数据集，对各开源模型（Qwen，Llama）进行全参数微调，获得 DeepSeek-R1-Distill-（Qwen/Llama）-(*B)

🚨注意：实验证明，只有 “足够聪明” 的基模型才能进行后续的强化学习训练，所以这里的基模型的选择，deepseek 使用了他们本身数理能力就足够强的 MoE 模型，deepseek-V3 作为基础进行训练。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。