DeepSeek V3解读

1. 摘要

训练成本低,但效果卓越。DeepSeek V3的参数量为671B,每个token激活 37B,支持上下文长度为128k。训练语料由14.8T高质量且多样化的token组成, 在2048个H800上训练了2.788M H800 GPU小时,耗时57天(2.788*1000000/2048/24=56.78天),用了558万美元。其所用的GPU训练资源仅为Llama 3.1 405B的差不多1/14,但是效果显著。

2. 算法改进

2.1 MLA

把传统的Multi-head Attention(MHA)结构改成Multi-head Latent Attention(MLA)

  1. 输入embedding的维度为𝑑
  2. 表示注意力头的数量
  3. 表示每个注意力头的维度
  4. 表示注意力层中第t个token的输入
  5. transformerhttps://latex.youkuaiyun.com/eq?l

 keyvalue压缩后的潜在向量。

表示KV被压缩后的维度,一般被设置为4

表示下投影矩阵。

表示k和v的上投影矩阵。

生成带有旋转位置嵌入(RoPE)的解耦密钥的矩阵,一般被设置为https://latex.youkuaiyun.com/eq?%5Cfrac%7Bd_%7Bh%7D%7D%7B2%7D

生成的时候只需要存储就行。

是q的压缩隐向量。

q压缩后隐向量的维度。

分别是q的下投影矩阵和上投影矩阵。

生成带有旋转位置嵌入(RoPE)的解耦密钥的矩阵。

单个token,MHA中的KV Cache需要存储,MLA中的KV Cache需要存储,虽然存储减少,但是效果比MHA还好。

2.2 DeepSeekMoE

把传统的FFN(Feed-Forward Network)结构改成DeepSeekMoE。

DeepSeekMoE两个关键理念。

  1. 的粒度以实现更高的专业化和更准确的知识获
  2. 隔离一些共享家以减路由家之的知冗余

表示FFN输入的第t个token。

表示共享专家的数量。

表示路由专家的数量。

表示共享专家。

表示路由专家。

表示第t个token到第i个家的和度。

表示第https://latex.youkuaiyun.com/eq?i 家的值。

表示第i个专家的质心向量。

V3中设置了1个共享专家,256个路由专家,激活专家数为8。

2.3 MTP

多token预测:Multi-Token Prediction(MTP)——显著加快模型的解码速度

2.4 使用FP8训练

使用FP8混合精度框架可以减小内存消耗增加训练速度。

大多数GEMM(矩阵乘法)操作都是以FP8实现的。

3. 本地部署

3.1 下载程序

git clone https://github.com/deepseek-ai/DeepSeek-V3.git

3.2 安装依赖库

cd DeepSeek-V3/inference

pip install -r requirements.txt

3.3  HuggingFace 模型

https://huggingface.co/deepseek-ai/DeepSeek-V3/tree/main

3.4  HuggingFace 模型转换为特定格式

python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo --n-experts 256 --model-parallel 16

3.5 运行DeepSeek-V3

torchrun --nnodes 2 --nproc-per-node 8 generate.py --node-rank $RANK --master-addr $ADDR --ckpt-path /path/to/DeepSeek-V3-Demo --config configs/config_671B.json --interactive --temperature 0.7 --max-new-tokens 200

### DeepSeek-V3 的特点 DeepSeek-V3 是一种先进的大规模语言模型(LLM),其设计融合了多种创新技术来提升推理能力和整体性能。该模型通过引入新颖的方法,能够有效地从长链思考(long-Chain-of-Thought, CoT)模型中提取并优化推理能力,并将其集成到标准的大规模语言模型架构内[^3]。 这种改进不仅增强了模型的理解力和解决问题的能力,还使得开发者可以在保持输出风格一致性和长度可控的前提下利用这些增强功能。因此,在处理复杂查询时,DeepSeek-V3 能够提供更加精准且连贯的回答。 此外,DeepSeek-V3 在多个评估指标上展现了卓越的成绩,特别是在知识类任务方面,如 MMLU、MMLU-Pro、GPQA 和 SimpleQA 测试集中的表现几乎可以媲美目前最优秀的同类产品——Claude-3.5-Sonnet;而在涉及较长文本的任务测试里,则超过了竞争对手,在 DROP、FRAMES 及 LongBench v2 上取得了更好的成绩[^2]。 ### 更新内容 为了进一步提高模型的表现力和服务质量,开发团队针对 DeepSeek- **强化推理机制**:采用了一种新的方法论,可以从特定版本的 DeepSeek R1 系列模型中提炼出高效的推理模式,并成功应用于 DeepSeek-V3 中,从而显著提升了后者在这方面的效能。 - **控制输出特性**:除了加强核心算法外,这次更新还包括对最终生成结果的形式进行了精细调整,确保用户接收到的信息既具有逻辑性又易于理解,同时还能满足不同应用场景下的具体需求。 ### 使用方法 对于想要部署或试用 DeepSeek-V3 的技术人员来说,官方文档提供了详细的指南说明如何快速入门以及最佳实践建议。以下是基本的操作流程概述: #### 安装环境准备 首先需要准备好适合运行此大型预训练模型所需的计算资源与软件依赖项。通常情况下,这涉及到配置 GPU 加速器支持、安装 Python 解释器及相关库文件等准备工作。 ```bash pip install deepseek-v3 # 假设这是用于安装包管理工具命令 ``` #### 初始化实例化对象 完成上述步骤之后就可以创建一个新的 `DeepSeekV3` 类型的对象来进行交互操作了。 ```python from deepseek_v3 import DeepSeekV3 model = DeepSeekV3() ``` #### 提交请求获取响应 最后一步就是向已加载好的模型发送自然语言形式的问题或者指令,等待它返回经过精心构建的答案。 ```python response = model.generate(text="请解释什么是机器学习?") print(response) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值