DeepSeek-V3

部署运行你感兴趣的模型镜像

1. 引言
我们介绍了 DeepSeek-V3,这是一个强大的专家混合 (MoE) 语言模型,总共有 671B 个参数,每个令牌激活了 37B。为了实现高效的推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。我们在 14.8 万亿个多样化和高质量的代币上对 DeepSeek-V3 进行预训练,然后是监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 的性能优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 只需要 2.788M H800 GPU 小时即可进行完整训练。此外,它的训练过程非常稳定。在整个训练过程中,我们没有遇到任何无法恢复的损失峰值或执行任何回滚。

2. 模型概述
架构:创新的负载均衡策略和训练目标

除了 DeepSeek-V2 的高效架构之外,我们还开创了一种用于负载均衡的辅助无损策略,该策略可以最大限度地减少因鼓励负载均衡而引起的性能下降。

我们研究了多标记预测 (MTP) 目标,并证明它对模型性能有益。它还可用于推理加速的推测解码。

训练前:迈向终极训练效率

我们设计了一个 FP8 混合精度训练框架,并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。

通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全的计算-通信重叠。
这显著提高了我们的训练效率并降低了训练成本,使我们能够在不增加开销的情况下进一步扩大模型大小。

我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T 令牌上完成了 DeepSeek-V3 的预训练,生成了目前最强的开源基础模型。预训练后的后续训练阶段只需要 0.1M GPU 小时。

培训后:DeepSeek-R1 的知识提炼

我们引入了一种创新方法,将长链思维 (CoT) 模型的推理能力,特别是 DeepSeek R1 系列模型之一的推理能力提炼到标准 LLM 中,特别是 DeepSeek-V3。我们的 pipeline 将 R1 的验证和反射模式优雅地整合到 DeepSeek-V3 中,并显著提高了它的推理性能。同时,我们还保持对 DeepSeek-V3 的输出样式和长度的控制。

3. 模型下载
型    #Total Params    #Activated Params    上下文长度    下载
DeepSeek-V3-基础    671B 系列    编号 37B    128K    🤗 拥抱脸
深度搜索-V3    671B 系列    编号 37B    128K    🤗 拥抱脸
注意:HuggingFace 上的 DeepSeek-V3 模型总大小为 685B,其中包括 671B 的主模型权重和 14B 的多标记预测 (MTP) 模块权重。

为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供了多种在本地运行模型的方法。有关分步指南,请查看第 6 节:How_to Run_Locally。

对于希望深入了解的开发人员,我们建议探索 README_WEIGHTS.md 以了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意,MTP 支持目前在社区内正在积极开发中,我们欢迎您的贡献和反馈。

4. 评估结果
基本模型
标准基准
基准 (度量)    # 镜头    深度搜索-V2    Qwen2.5 72B    LLaMA3.1 405B    深度搜索-V3
建筑    -    教育部    稠    稠    教育部
# 激活的 Params    -    21B    72B 系列    405B 系列    编号 37B
# 总参数    -    编号 236B    72B 系列    405B 系列    671B 系列
英语    桩测试 (BPB)    -    0.606    0.638    0.542    0.548
BBH (EM)    3 镜头    78.8    79.8    82.9    87.5
MMLU (Acc.)    5 镜头    78.4    85.0    84.4    87.1
MMLU-Redux (Acc.)    5 镜头    75.6    83.2    81.3    86.2
MMLU-Pro (附件)    5 镜头    51.4    58.3    52.8    64.4
DROP (F1)    3 镜头    80.4    80.6    86.0    89.0
ARC-Easy (累积)    25 发    97.6    98.4    98.4    98.9
ARC-Challenge (累积)    25 发    92.2    94.5    95.3    95.3
HellaSwag (累积)    10 次拍摄    87.1    84.8    89.2    88.9
PIQA (累积)    0 次射击    83.9    82.6    85.9    84.7
WinoGrande (Acc.)    5 镜头    86.3    82.3    85.2    84.9
RACE-中 (Acc.)    5 镜头    73.1    68.1    74.2    67.1
RACE-High (累积)    5 镜头    52.6    50.3    56.8    51.3
花絮QA (EM)    5 镜头    80.0    71.9    82.7    82.9
自然问题 (EM)    5 镜头    38.6    33.2    41.5    40.0
AGIEval (Acc.)    0 次射击    57.5    75.8    60.6    79.6
法典    HumanEval (Pass@1)    0 次射击    43.3    53.0    54.9    65.2
MBPP (Pass@1)    3 镜头    65.0    72.6    68.4    75.4
LiveCodeBench-Base (Pass@1)    3 镜头    11.6    12.9    15.5    19.4
CRUXEval-I (Acc.)    2 次射击    52.5    59.1    58.5    67.3
CRUXEval-O (Acc.)    2 次射击    49.8    59.9    59.9    69.8
数学    GSM8K (电磁)    8 镜头    81.6    88.3    83.5    89.3
数学 (EM)    4 发    43.4    54.4    49.0    61.6
MGSM (EM)    8 镜头    63.6    76.2    69.9    79.8
CMath (EM)    3 镜头    78.7    84.5    77.3    90.7
中文    CLUEWSC (EM)    5 镜头    82.0    82.5    83.0    82.7
C-Eval (Acc.)    5 镜头    81.4    89.2    72.5    90.1
CMMLU (Acc.)    5 镜头    84.0    89.5    73.7    88.8
CMRC (EM)    1 次    77.4    75.8    76.0    76.3
C3 (累积)    0 次射击    77.4    76.7    79.7    78.6
CCPM (累积)    0 次射击    93.0    88.5    78.6    92.0
多种语言    MMMLU-non-English (Acc.)    5 镜头    64.0    74.8    73.8    79.4
注意:最佳结果以粗体显示。差距不超过 0.3 的分数被视为处于同一水平。DeepSeek-V3 在大多数基准测试中实现了最佳性能,尤其是在数学和代码任务上。

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

### DeepSeek-V3 技术概述 DeepSeek-V3 是一种先进的大型语言模型(LLM),经过专门设计和优化,以增强其处理各种任务的能力。该模型不仅限于传统的聊天功能,还集成了多种外部工具的支持,从而显著提升了其实用性和灵活性[^1]。 #### 技术文档 对于 DeepSeek-V3 的技术文档,官方通常会提供详细的架构说明、训练方法以及性能评估等内容。这类文档旨在帮助开发者和技术人员深入了解模型的工作原理及其内部机制。具体来说: - **架构设计**:描述了模型的整体结构,包括使用的神经网络层类型、参数配置等细节。 - **训练过程**:涵盖了数据预处理方式、所采用的数据集规模及质量控制措施等方面的信息。 - **性能评测**:提供了不同应用场景下的测试结果对比分析,有助于理解模型的优势领域和发展方向。 #### 版本特性 DeepSeek-V3 相较前代产品引入了一系列改进特征,主要包括但不限于以下几个方面: - **更强的上下文理解能力**:通过优化编码器部分的设计,使得模型能更好地捕捉长距离依赖关系,在涉及复杂语境的任务上表现更加出色。 - **集成更多实用工具接口**:除了继续支持搜索引擎、编程环境外,新增加了一些特定领域的API接入点,例如金融资讯获取服务、医疗知识库查询等功能模块。 - **提升多模态融合水平**:加强图像识别与其他感知输入形式之间的协作效率,实现更为自然流畅的人机交互体验。 #### 使用指南 为了便于用户快速掌握如何有效利用 DeepSeek-V3 解决实际问题,建议遵循以下指导原则: - **熟悉基础命令语法**:学习基本指令格式,了解怎样向模型提问可以获得最理想的回应效果。 - **探索内置插件生态**:尝试不同的附加组件组合方案,找到最适合个人需求的最佳实践模式。 - **参与社区交流活动**:加入相关论坛讨论组或参加线下聚会分享经验心得,共同促进整个生态系统健康发展。 ```python # 示例代码展示如何初始化并调用 DeepSeek-V3 进行简单问答操作 from deepseek import DeepSeekV3 model = DeepSeekV3() response = model.ask("什么是量子力学?") print(response) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值