震惊世界的DeepSeek-V3技术与其他主流模型的全面评估对比

最新推荐文章于 2025-02-22 17:26:42 发布

原创

最新推荐文章于 2025-02-22 17:26:42 发布 · 3.2k 阅读

42 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #deepseek #python

简介

近年来，大型语言模型（LLM）一直在进行快速迭代和进化，比如Openai，Anthropic，逐渐减少（AGI）的差距。除了封闭式模型，开源模型，比如DeepSeek系列，也正在取得长足的进步，努力与封闭源同行缩小差距。为了进一步推动开源模型功能的边界，deepseek团队扩大了模型并引入DeepSeek-V3，这是具有671B参数的大型专家（MOE）模型，每个 token 都激活了37B。从具有前瞻性的角度来看，他们始终如一地努力争取强大的模型绩效和经济成本。因此，就体系结构而言，DeepSeek-V3仍然采用多头潜在注意力（MLA），为了有效的推理和DeepSeekmoe进行具有成本效益的培训。这两个架构已在DeepSeek-V2中得到了验证，证明其能力在实现有效的训练和推理的同时保持健壮的模型性能。除了基本体系结构之外，他们还实施了两种其他策略，以进一步增强模型功能。
首先，DeepSeek-V3先驱者是一种无辅助策略了使负载平衡，目的是最大程度地减少对模型性能的不利影响，这源于鼓励负载平衡的努力。其次，DeepSeek-V3采用了多句话的预测培训目标，观察到这是为了提高评估基准的总体性能。为了获得有效的培训，DeepSeek-V3支持FP8混合精度培训并实施培训框架的全面优化。低精度培训已成为有效训练的有前途的解决方案，其演变与硬件功能的进步紧密相关。在这项工作中，DeepSeek-V3引入了FP8混合精度训练框架，并首次验证其在极大的模型上的有效性。通过支持FP8计算和存储，DeepSeek-V3既实现了加速训练，又可以减少GPU内存使用量。至于训练框架，DeepSeek-V3设计了双管算法以进行有效的管道并行性，该管道平行性的管道气泡较少，并且在训练过程中通过计算通信重叠而隐藏了大部分通信。这种重叠可以确保，随着模型的进一步扩展，只要保持恒定的计算与通信比率，仍然可以在节点上使用细粒度的专家，同时实现接近零的全部全部交流开销。此外，还开发了有效的跨节点全体通信内核，以充分利用Infiniband（IB）和NVLink带宽。此外，精心优化了内存足迹，使得在不使用昂贵的张量并行性的情况下训练DeepSeek-V3成为可能。结合这些努力，达到了高训练效率。
在预训练期间，DeepSe