DeepSeek-R1 部署使用

CoT 优势

在工业级 AI 系统建设中,CoT 展现出多重应用价值:

1. 复杂问题求解:通过问题分解(Problem Decomposition)将计算资源动态分配至关键推理节点;

2. 模型可解释性:推理链输出使开发者能定位错误节点(如数学公式误用、知识检索偏差),相比黑箱模型,CoT 的推理链输出使调试更有依据;

3. 跨模型泛化性:兼容 Transformer 系列、MoE 架构等主流模型,仅需添加提示词即可实现能力迁移。

在复杂推理任务中,思维链(CoT)可以显著提升模型的推理能力。然而,CoT 数据的获取一直高度依赖人工标注,难以大规模生成和应用。DeepSeek-R1 通过强化学习优化了这一流程,使模型能够自主生成高质量 CoT 数据,并公开了这一方法,让端到端训练更加高效可复现。此外,DeepSeek 还利用大模型生成的数据训练小模型,让小模型也具备强大的推理能力,从而降低推理成本,使高质量推理能力更易落地应用。

2. 训练的过程

关于模型与流程可以简单分为 4 个阶段

1️⃣阶段一:强化学习验证,对 DeepSeek-V3 进行纯粹的强化学习,获得 DeepSeek-R1-Zero

2️⃣阶段二:数据合成模型,使用 DeepSeek-R1-Zero 生成数据训练 DeepSeek-V3,得到 DeepSeek-V3-checkpoint,并用 DeepSeek-V3-checkpoint 生成 600k 的推理数据集

3️⃣阶段三:DeepSeek-R1 训练,混合推理数据以及非推理数据集(800k),对模型 DeepSeek-V3 进行全参数微调,获得 DeepSeek-R1

4️⃣阶段四:蒸馏实验,使用与训练 R1 相同的混合数据集,对各开源模型(Qwen,Llama)进行全参数微调,获得 DeepSeek-R1-Distill-(Qwen/Llama)-(*B)

🚨注意:实验证明,只有 “足够聪明” 的基模型才能进行后续的强化学习训练,所以这里的基模型的选择,deepseek 使用了他们本身数理能力就足够强的 MoE 模型,deepseek-V3 作为基础进行训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值