文章主要内容总结
本文聚焦长上下文大语言模型(LLM)微调中的内存瓶颈问题,研究了计算快速链路(CXL)附加内存作为CPU内存扩展的有效性,旨在通过优化CXL内存分配提升CPU卸载性能。
-
背景与问题:长上下文LLM微调需存储与上下文长度成正比的中间激活值,导致GPU内存不足,因此常采用CPU卸载技术将数据转移至系统内存。但系统内存受限于CPU规格和DIMM插槽,容量有限,成为新瓶颈。CXL技术可扩展内存容量,但直接使用会引发性能问题:CPU优化器步骤因CXL内存延迟高而性能下降;多GPU同时访问单一CXL AIC(附加卡)导致带宽竞争,限制扩展性。
-
解决方案:
- CXL感知内存分配:根据数据访问模式和延迟敏感性分配内存——将对延迟敏感的CPU优化器数据(全精度参数、梯度、优化器状态)存于本地DRAM,将延迟容忍性高的数据(激活值、bf16精度参数/梯度)存于CXL内存。
- 多AIC条带化:将数据分布在多个CXL AIC上,聚合带宽以缓解多GPU场景的带宽竞争,提升数据传输效率。
-
实验结果:通过单AIC和双AIC配置实验,验证了优化策略的有效性。双AIC配置下,性能接近本地DRAM基线(差距≤1%),较朴素CXL使用提升最高达21%,证明CXL是长上下文LLM微调中CPU卸载的有效扩展方案。

订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



