LLM实践——DeepSeek技术报告学习(含实现逻辑梳理)

DeepSeek官网:https://www.deepseek.com/

一些基本概念:

  • post-training:旨在优化预训练模型的特定能力,包括‌任务适配性、安全性、对齐人类偏好‌等,使其更适用于实际场景。主要分为三个阶段:‌微调(Finetune)、对齐(Alignment)、评估(Evaluation);
  • test-time compute(推理时计算):在推理阶段(即大语言模型生成最终结果的阶段)投入更多计算资源,而非集中在预训练或后训练阶段。(推理过程的加入,使该现象更明显);
  • rejection sampling(拒绝采样):
    • 拒绝采样定义:
      如图所示,p ( x ) 是我们希望采样的分布,q ( x ) 是我们提议的分布(proposal distribution),q ( x ) 分布比较简单,令kq(x)>p(x),我们首先在k q ( x ) 中按照直接采样的方法采样粒子,接下来判断这个粒子落在图中什么区域,对于落在蓝线以外的粒子予以拒绝,落在蓝线下的粒子接受,最终得到符合p(x)的N个粒子。
      ————————————————
    • 拒绝接受采样的基本步骤:
      ①生成服从q(x)的样本→ xi
      ​②生成服从均匀分布U(0,1)的样本→ui
      ​③当q ( x i ) ⋅ u i < p ( x i ) ,也就是二维点落在蓝线以下(见附件),此时接受X k = x i
      ④最终得到的Xk为服从p(x)的样本。
      在这里插入图片描述

deepseek-r1-zero

基于DeepSeek-R1报告梳理的deepseek-r1-zero模型实现过程如下:
在这里插入图片描述

deepseek-R1

基于DeepSeek-R1报告梳理的deepseek-R1模型实现过程如下:

deepseek-R1 distill model:

模型蒸馏技术还需要进一步备注。

(1)DeepSeek蒸馏模型的基模型:Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-
14B, Qwen2.5-32B, Llama-3.1-8B, and Llama-3.3-70B-Instruct.
(2)使用deepseek-R1的800k SFT数据进行微调,没有经过RL过程。

### DeepSeek 技术报告概述 DeepSeek-V3 是一种先进的混合专家(MoE)语言模型,其技术报告详细描述了模型的架构、训练方法和性能优化策略。以下是对 DeepSeek 技术报告中关键内容的总结: #### 模型参数与架构 DeepSeek-V3 的总参数量为 6710 亿,其中每个 token 激活的参数量为 370 亿[^1]。为了实现高效的推理和经济高效的训练,DeepSeek-V3 引入了多头潜在注意力(MLA)和 DeepSeekMoE 架构。这些架构在 DeepSeek-V2 中已经得到了充分验证[^1]。 #### 训练过程 DeepSeek-V3 在 14.8 万亿个多样且高质量的 token 上进行了预训练,并通过监督微调(SFT)和强化学习(RL)阶段进一步优化其性能。完整的训练过程仅需 278.8 万 H800 GPU 小时,且训练过程非常稳定,未出现任何不可恢复的损失峰值或回滚。 #### DeepSeekMoE 架构 DeepSeekMoE 架构在前馈网络(FFN)部分采用了更细粒度的专家分配机制,并创新性地将部分专家设置为共享专家。假设第 t 个 token 的 FFN 输入为 \( u_t \),其输出 \( h_t' \) 的计算过程如下[^2]: ```python h_t' = ExpertRouter(u_t) ``` 这种设计显著提高了模型的计算效率和资源利用率。 #### 知识蒸馏方法 DeepSeek-V3 还引入了一种创新的知识蒸馏方法,将思维链(CoT)模型(特别是 DeepSeek R1 系列)的推理能力转移到标准 LLM 中。这种方法成功地将 R1 的验证和反思机制整合到 DeepSeek-V3 中,显著提升了其推理能力,同时有效控制了输出的风格和长度[^3]。 #### MoE 路由优化 DeepSeek-V3 的 MoE 路由优化设计基于 DualPipe 方法,该方法大幅减少了流水线阻塞,而峰值活性内存仅增加了 1/PP。尽管 DualPipe 需要维护两份模型参数副本,但由于训练过程采用了大规模 EP,这一冗余并未导致显著的内存开销增加[^4]。 ### 结论 综合评估表明,DeepSeek-V3 优于其他开源模型,并与领先的闭源模型性能相当。其技术创新和高效训练策略使其成为当前最先进的语言模型之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值