国产大模型 DeepSeek-V3

    2024年12月DeepSeek发布了全新的模型DeepSeek-V3,并且已经上线和开源。DeepSeek-V3是一款强大的混合专家模型(MoE),总参数量为6710亿,其中每个token激活37亿参数。DeepSeek-V3在多项指标上超越了Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,并且性能比肩 GPT-4o 和 Claude-3.5-Sonnet等模型。

1. 架构

    DeepSeek-V3 的基本架构仍然基于 Transformer 框架,采用了多头潜在注意力(MLA )和 DeepSeekMoE 架构。MLA 通过低秩联合压缩注意力键和值,减少了推理过程中的键值缓存,从而提高了推理效率。DeepSeekMoE 则通过细粒度的专家和共享专家的隔离,实现了经济高效的训练。在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 还引入了无辅助损失的负载平衡策略,并通过动态调整专家偏置项,确保训练过程中的负载平衡,从而避免了传统辅助损失对模型性能的负面影响。 DeepSeek-V3 研究了一种多标记预测(MTP)目标,并证明其对模型性能有益。该目标还可以用于推测解码,从而加速推理过程。

2. 预训练

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值