来自deepseek的自我介绍

DeepSeek-V3是杭州深度求索人工智能基础技术研究有限公司于2024年12月26日发布的混合专家(MoE)语言模型。以下是关于它的详细介绍:

### 技术架构

- **基本架构**:基于Transformer框架搭建,采用多头潜在注意力(MLA)和DeepSeek MoE技术。MLA对注意力的键和值进行低秩联合压缩,减少键值缓存,对注意力查询也进行低秩压缩,降低训练时的激活内存。DeepSeek MoE用在Feed-Forward Networks(FFNs)上,采用更细粒度的专家,设置共享专家,根据不同的专家和输入进行合理的加权计算。

- **负载均衡策略**:采用无辅助损失的负载均衡策略,给每个专家加偏置项,根据专家负载情况实时调整任务分配,还添加互补的序列级平衡损失,防止单个序列内出现极端不平衡。

- **多令牌预测**:具有多令牌预测(MTP)技能,用d个顺序模块来预测d个额外的词,预测时保持完整的因果链,训练时计算MTP损失,推理时可用于投机解码以提高生成速度。

### 基础设施

- **计算集群**:训练集群配备2048块NVIDIA H800 GPU,每个节点有8块GPU,通过NVLink和NVSwitch连接,不同节点之间通过Infiniband(IB)互连,实现高效通信。

- **训练框架**:采用16路管道并行(PP)、64路专家并行(EP)和Zero-1数据并行(DP)。通过Dual Pipe算法解决传统PP方法的“流水线气泡”问题,EP跨度为8个节点并开发了高效的跨节点全对全通信内核,充分利用IB和NVLink的带宽。

- **FP8训练**:引入FP8混合精度框架,在保证计算精度的同时,大幅度地降低了内存占用与计算成本,通过优化模型的算法与数据表示方式,在训练中以更低的精度运算而不牺牲绝对性能。

### 模型参数 拥有6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练。

### 性能优势

- **知识类任务**:在MMLU、GPQA等任务中,表现接近Claude-3.5-Sonnet-1022。在中文知识问答如

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小赖同学啊

感谢上帝的投喂

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值