简介
近年来,大型语言模型(LLM)一直在进行快速迭代和进化,比如Openai,Anthropic,逐渐减少(AGI)的差距。除了封闭式模型,开源模型,比如DeepSeek系列,也正在取得长足的进步,努力与封闭源同行缩小差距。为了进一步推动开源模型功能的边界,deepseek团队扩大了模型并引入DeepSeek-V3,这是具有671B参数的大型专家(MOE)模型,每个 token 都激活了37B。从具有前瞻性的角度来看,他们始终如一地努力争取强大的模型绩效和经济成本。因此,就体系结构而言,DeepSeek-V3仍然采用多头潜在注意力(MLA),为了有效的推理和DeepSeekmoe进行具有成本效益的培训。这两个架构已在DeepSeek-V2中得到了验证,证明其能力在实现有效的训练和推理的同时保持健壮的模型性能。除了基本体系结构之外,他们还实施了两种其他策略,以进一步增强模型功能。
首先,DeepSeek-V3先驱者是一种无辅助策略了使负载平衡,目的是最大程度地减少对模型性能的不利影响,这源于鼓励负载平衡的努力。其次,DeepSeek-V3采用了多句话的预测培训目标,观察到这是为了提高评估基准的总体性能。为了获得有效的培训,DeepSeek-V3支持FP8混合精度培训并实施培训框架的全面优化。低精度培训已成为有效训练的有前途的解决方案,其演变与硬件功能的进步紧密相关。在这项工作中,DeepSeek-V3引入了FP8混合精度训练框架,并首次验证其在极大的模型上的有效性。通过支持FP8计算和存储,DeepSeek-V3既实现了加速训练,又可以减少GPU内存使用量。至于训练框架,DeepSeek-V3设计了双管算法以进行有效的管道并行性,该管道平行性的管道气泡较少,并且在训练过程中通过计算通信重叠而隐藏了大部分通信。这种重叠可以确保,随着模型的进一步扩展,只要保持恒定的计算与通信比率,仍然可以在节点上使用细粒度的专家,同时实现接近零的全部全部交流开销。此外,还开发了有效的跨节点全体通信内核,以充分利用Infiniband(IB)和NVLink带宽。此外,精心优化了内存足迹,使得在不使用昂贵的张量并行性的情况下训练DeepSeek-V3成为可能。结合这些努力,达到了高训练效率。
在预训练期间,DeepSe

最低0.47元/天 解锁文章
450

被折叠的 条评论
为什么被折叠?



