硬件感知协同设计揭秘低成本大模型训练

最新推荐文章于 2025-12-20 21:22:01 发布

原创最新推荐文章于 2025-12-20 21:22:01 发布 · 300 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#大语言模型 #硬件协同设计 #深度学习 #程序那些事 #AIGC #llama #语言模型

DeepSeek-V3 新论文发布：通过硬件感知协同设计揭秘低成本大模型训练

一份新发布的14页技术论文揭示了"扩展挑战与AI架构硬件反思"。这篇后续报告深入探讨了大语言模型开发、训练与底层硬件基础设施之间的复杂关系。论文超越了DeepSeek-V3的架构细节，探索了硬件感知模型协同设计如何有效解决当前硬件的限制，最终实现成本效益高的大规模训练和推理。

LLM的快速扩展暴露了当前硬件架构中的关键瓶颈，特别是在内存容量、计算效率和互连带宽方面。DeepSeek-V3在2048个某中心H800 GPU集群上训练，作为一个引人注目的案例研究，展示了模型设计与硬件考虑之间的协同方法如何克服这些限制。

论文重点关注的领域包括：

硬件驱动的模型设计：分析硬件特性（如FP8低精度计算和纵向/横向扩展网络属性）如何影响DeepSeek-V3内部的架构选择。

硬件-模型相互依赖关系：研究硬件能力如何塑造模型创新，以及LLM不断变化的需求如何推动下一代硬件的要求。

硬件开发的未来方向：从DeepSeek-V3中汲取实践见解，指导未来硬件和模型架构的协同设计，以实现可扩展且成本效益高的AI系统。

DeepSeek-V3的设计原则：应对核心扩展挑战

DeepSeek-V3包含多项关键架构创新，包括DeepSeekMoE架构和多头潜在注意力。这些设计直接应对扩展LLM的核心挑战：内存效率、成本效益和推理速度。

内存效率：MLA和KV缓存优化

LLM的内存需求呈指数级增长，超过了HBM等高速内存的缓慢增长。虽然多节点并行提供了一种解决方案，但从源头优化内存使用仍然至关重要。

通过多头潜在注意力，使用投影矩阵将所有注意力头的键值表示压缩到较小的潜在向量中，与模型联合训练。在推理过程中，只需要缓存这个压缩的潜在向量，与存储每个头的完整KV缓存相比，显著减少了内存消耗。

除了MLA之外，还强调了其他有价值的KV缓存大小减少技术：

共享KV：多个注意力头共享单一的键值对集合，大幅压缩存储
窗口KV：限制KV缓存的上下文窗口
量化压缩：降低存储KV值的精度

论文中的表1比较了DeepSeek-V3、Qwen-2.5 72B和LLaMA-3.1 405B的每令牌KV缓存内存占用。DeepSeek-V3实现了显著减少，每个令牌仅需要70 KB，显著低于LLaMA-3.1 405B的516 KB和Qwen-2.5 72B的327 KB。

成本效益：用于稀疏计算的DeepSeekMoE

对于稀疏计算，开发了DeepSeekMoE，一种先进的混合专家架构。MoE模型在成本效益方面提供两个关键优势：

减少训练计算：通过选择性激活每个令牌的专家参数子集，MoE架构允许大幅增加参数总数，同时保持可管理的计算需求。例如，DeepSeek-V3拥有671B参数，几乎是其前身V2的三倍，但每个令牌仅激活37B参数。相比之下，像Qwen2.5-72B和LLaMa3.1-405B这样的密集模型在训练期间需要所有参数都处于活动状态。表2显示，DeepSeekV3以数量级更少的计算成本实现了与这些密集模型相当或更优的性能。

个人使用和本地部署的优势：MoE模型中参数的选择性激活在单请求推理期间转化为显著更低的内存和计算需求。例如，DeepSeek-V2在推理期间仅激活21B参数，在配备AI SoC的个人计算机上实现接近或超过每秒20个令牌的能力，这远远超过了类似硬件上同等规模密集模型的能力。这为本地运行的个性化LLM代理开辟了可能性。

增强推理速度：重叠计算和通信

为了最大化吞吐量，模型从一开始就采用双微批处理重叠架构，有意将通信延迟与计算重叠。

此外，将MLA和MoE的计算解耦为不同的阶段。当一个微批处理执行部分MLA或MoE计算时，另一个同时执行相应的调度通信。相反，在第二个微批处理的计算阶段，第一个微批处理执行组合通信步骤。这种流水线方法使得全对全通信能够与连续计算无缝重叠，确保完全的GPU利用率。在生产中，使用预填充和解码分离架构，将大批次预填充和延迟敏感的解码请求分配给不同大小的专家并行组，在真实服务条件下最大化系统吞吐量。

论文还涉及了测试时间扩展对于推理模型的重要性，并强调了高令牌输出速度在强化学习工作流和减少长推理序列中用户感知延迟方面的关键作用。

低精度驱动设计：FP8训练和LogFMT

FP8混合精度训练

虽然像GPTQ和AWQ这样的量化技术显著减少了主要用于推理的内存需求，但已经开创了在大规模MoE模型中使用FP8混合精度训练。尽管某中心的Transformer Engine支持FP8，但DeepSeek-V3标志着首个公开已知的利用FP8进行训练的大模型。这一成就来自基础设施和算法团队之间的密切合作，以及广泛的实验，显著降低了计算成本，同时保持了模型质量，使大规模训练更加可行。

用于高效通信的LogFMT

在DeepSeek-V3架构内，还对网络通信采用低精度压缩。在EP并行期间，使用细粒度FP8量化调度令牌，与BF16相比，通信量减少50%，从而显著缩短通信时间。

除了传统的浮点格式外，还尝试了一种称为LogFMT-nBit的新型数据类型。

互连驱动设计：应对硬件限制

当前硬件架构及其约束

目前使用某中心H800 GPU SXM架构，虽然基于与H100类似的Hopper架构，但由于监管要求，具有降低的FP64计算性能和NVLink带宽。节点内扩展带宽的显著减少对高性能工作负载构成了挑战。为了补偿，每个节点配备八个400G Infiniband CX7网络接口卡，以增强节点间扩展能力。

硬件感知并行化和模型协同设计

为了应对H800架构的限制，DeepSeek-V3模型包含了硬件感知设计考虑用于并行化，包括：避免张量并行性，增强流水线并行性，以及加速专家并行性。

模型协同设计的一个关键方面是MoE架构中TopK专家选择策略的"节点感知路由"。考虑到节点内和节点间通信之间大约4:1的带宽差异，设计了路由以利用更高的节点内带宽。通过将256个路由专家分组为8组32个专家，每组驻留在单个节点上，并通过算法确保每个令牌最多路由到4个节点，减轻了IB通信瓶颈，提高了训练期间的有效通信带宽。目的地为同一节点上专家的令牌可以通过IB发送一次，然后通过NVLink转发，减少冗余的IB流量。

纵向和横向扩展融合：未来硬件方向

虽然节点感知路由减少了带宽需求，但NVLink和IB之间的带宽差异使通信密集型内核的实现复杂化。目前，GPU流式多处理器处理网络消息处理和通过NVLink的数据转发，消耗大量计算资源。主张将节点内和节点间通信集成到统一框架中。

集成专用的协处理器用于网络流量管理和NVLink与IB域之间的无缝转发，可以减少软件复杂性并最大化带宽利用率。动态流量去重硬件支持可以进一步优化像DeepSeek-V3的节点感知路由这样的策略。还探索了新兴的互连协议，如超以太网联盟和超加速器链接，将统一总线作为融合纵向和横向扩展的最新方法。

带宽争用和延迟

当前硬件的另一个限制是缺乏在NVLink和PCIe上不同流量类型之间动态分配带宽的灵活性。例如，在推理期间将KV缓存数据从CPU内存传输到GPU可以使PCIe带宽饱和，导致与通过IB的GPU间EP通信争用，可能降低整体性能并导致延迟峰值。建议的解决方案包括动态NVLink/PCIe流量优先级排序、I/O小芯片集成以及纵向扩展域内的CPU-GPU互连。

大规模网络驱动设计：多平面胖树

网络协同设计：多平面胖树

对于DeepSeek-V3训练，部署了多平面胖树横向扩展网络。每个节点配备8个GPU和8个IB NIC，将每个GPU-NIC对分配给不同的网络平面。此外，每个节点有一个400 Gbps以太网RoCE NIC连接到单独的存储网络平面，用于访问3FS分布式文件系统。横向扩展网络使用64端口400G IB交换机，理论上支持多达16,384个GPU，同时保留两层网络的成本和延迟优势。

部署的MPFT网络由于当前IB ConnectX-7的限制没有完全实现其预期架构。理想情况下，每个NIC将有多个物理端口，每个端口连接到单独的网络平面，但通过端口绑定向用户呈现为单一逻辑接口。这将允许单个队列对在所有可用端口上无缝发送和接收消息，类似于数据包喷洒。NIC内的原生乱序布局支持对于确保消息一致性和正确的排序语义是必要的，因为来自同一QP的数据包可能穿越不同的网络路径并乱序到达。

低延迟网络

在模型推理中，大规模EP严重依赖于全对全通信，这对带宽和延迟都很敏感。即使微秒级的固有网络延迟也会显著影响系统性能。

分析了IB和RoCE的延迟特性，注意到IB的一致较低延迟，使其更适合像分布式训练和推理这样的延迟敏感工作负载。虽然RoCE提供了一个可能具有成本效益的替代方案，但其当前的延迟和可扩展性限制阻止它完全满足大规模AI系统的需求。提出了RoCE的具体改进，包括专用的低延迟RoCE交换机、优化的路由策略以及增强的流量隔离或拥塞控制机制。

为了进一步减少网络通信延迟，使用InfiniBand GPUDirect Async。传统上，网络通信涉及CPU代理线程，引入了额外的开销。IBGDA允许GPU直接填充工作请求内容并写入RDMA门铃MMIO地址，消除了与GPU-CPU通信相关的显著延迟。通过在GPU内管理整个控制平面，IBGDA避免了CPU瓶颈，特别是在发送大量小数据包时，因为GPU的并行线程可以分配工作负载。

讨论和未来硬件架构设计的见解

基于在特定应用环境中识别的硬件限制和提出的解决方案，论文拓宽了讨论，为未来硬件架构设计提供了前瞻性方向：

鲁棒性挑战：通过高级错误检测和校正机制解决硬件故障和静默数据损坏，用于构建不间断的AI基础设施。

CPU瓶颈和互连限制：优化CPU-加速器协作，特别是打破传统接口的限制，实现高速、无瓶颈的节点内通信。

AI智能网络：创建低延迟和智能网络，采用共封装光学、无损机制和自适应路由等技术，处理复杂的通信需求。

内存语义通信和排序：解决当前内存语义通信中的数据一致性和排序挑战，探索硬件级内置保证以提高通信效率。

网络中的计算和压缩：将计算和压缩能力卸载到网络中，特别是对于像EP这样的特定工作负载，以释放网络带宽潜力。

内存中心架构创新：解决由指数模型扩展驱动的内存带宽危机，探索如DRAM堆叠和晶圆级集成等尖端技术。

论文对每个这些领域提供了具体的见解和建议，强调了硬件和软件之间整体协同设计方法的必要性，以实现大规模AI的持续进步和可访问性。

总之，这份技术报告为DeepSeek-V3开发和训练过程中遇到的挑战和解决方案提供了宝贵的见解。通过细致分析模型架构和硬件限制之间的相互作用，为AI基础设施的未来提供了一个引人注目的愿景，强调了硬件感知协同设计在实现成本效益高且可扩展的大语言模型方面的关键作用。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）